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万 木 杨 wanmuyang 
网 名 木 兮 清 扬 ， 在 华为 公司 服务 近 6 年 ， 曾 任 软件 工程 师 、 算 法 工 
呈 师 、 系 统 工程 师 ， 擅 长 多 媒体 算法 设计 和 编写 高 效 代码 。 


作者 自 2004 年 起 开始 研究 多 媒体 算法 ， 从 语音 识别 ， 到 人 脸 动 
画 ， 表 到 视频 编 解码 ， 足 迹 遍 布 语音 、 图 像 、 视 频 和 3D。 自 2006 年 在 
DSP 上 编写 程序 ， 从 此 开始 深入 研究 处 理 器 内 部 结构 ， 后 来 接触 过 大 
量 的 半导体 公司 和 处 理 器 心 片 ， 对 处 理 器 技术 和 产品 有 着 深刻 的 理 
解 。 


闲暇 之 余 ， 作 者 喜爱 读书 ， 多 年 来 保持 平均 两 周一 本 的 速度 。 


内 容 简 介 


处 理 器 是 IT、 通 信 、 电 子 产业 的 基石 ， 没 有 处 理 器 ， 信 息 产 业 大 
厦 就 如 同 建立 在 阔 滩 上 。 本 书 是 一 本 图 文 并 成 、 生 动 幽 默 的 处 理 器 科 
普 读物 ， 全 书 行文 风趣 幽默 ， 用 类 比 来 解释 星 奖 的 技术 ， 用 图 画 来 代 
替 枯 燥 的 文字 。 本 着 科技 以 人 为 本 的 理念 ， 本 书 除 了 技术 外 ， 还 介绍 
了 大 量 人 物 和 公司 的 故事 ， 供 大 家 闲 读 。 

第 1 章 漫游 计算 机 世界 ， 介 绍 了 计算 机 的 前 世 今 生 ， 以 及 计算 机 的 
五 及 六腑、 七 经 八 脉 。 第 2 章 到 第 5 章 从 外 到 内 ， 介 绍 了 处 理 器 的 外 表 
和 内 心 结构 ， 处 理 器 的 核心 撤 术 尽 在 于 此 。 第 6 章 向 软件 人 员 介 绍 了 怎 
样 编写 高 效 代 码 ， 处 理 器 的 客户 就 是 程序 员 ， 程 序 员 在 处 理 器 上 开发 
程序 ， 对 处 理 器 了 解 得 越 深 ,编写 出 来 的 代码 执行 效率 就 越 高 。 第 7 章 
介绍 了 大 量 的 处 理 器 了 公司 ， 现 在 的 人 们 攒 电脑 ， 以 后 的 人 们 说 不 定 
就 能 攒 处 理 器 了 。 第 8 章 走 进 处 理 器 的 内 “ 心 ?* 世 界 ， 介 绍 处 理 器 心 片 是 
怎么 设计 与 制造 出 来 的 。 

本 书 在 通信 人 家 园 论坛 上 连载 了 一 部 分 ， 得 到 了 广泛 的 好 评 ， 帖 
子 迅速 被 置顶 、 加 精 、 进 入 论坛 首页 ， 也 在 公司 内 部 被 大 量 传播 。 

本 书 的 主要 读者 是 IT、 通 信 、 电 子 、 半 导体 行业 的 从 业 人 员 ， 以 
及 大 专 院 校 的 学 生 。 喜 欢 技术 的 看 技术 ， 不 喜欢 技术 的 看 故事 。 
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序 一 ”寻宝 处 理 器 的 引人入胜 之 旅 


当 出 版 社 的 编辑 介绍 万 木 杨 的 这 本 书 给 我 时 ， 我 对 书 名 《大 话 处 
理 器 》 是 有 一 定 担心 的 ， 其 一 : 处 理 器 和 计算 机 的 发 展 几 十 年 来 风 起 
云 涌 ， 其 间 有 天 才 的 创新 、 看 似 偶然 的 分 又 和 园 于 商业 市 场 考量 的 成 
功 与 失败 ， 一 部 技术 发 展 史 绝 不 比 波 育 云 诡 的 社会 史 逊 色 。 一 部 “大 
话 ” 处 理 器 的 书 会 不 会 流 于 一 部 围绕 处 理 器 发 展 种 种 轶 事 的 大 话 技术 
史 ? 读书 时 固然 会 津津 乐 道 ， 兴 趣 斐 然 ， 然 而 掩 卷 沉思 后 ， 会 不 会 仍 
然 无 法 对 处 理 器 的 体系 结构 有 更 清晰 的 认识 ? 其 二 : 处 理 器 的 发 展 是 
和 软件 、 操 作 系统 的 发 展 互 为 作用 的 ， 其 中 很 多 技术 点 和 概念 都 值得 
深入 讨论 。 采 用 “大 话 ?” 的 方式 能 否 既 保证 技术 书籍 叙述 的 准确 性 ， 又 
不 至 于 陷入 对 某 些 概念 旁 征 博 引 的 “Rat hole” 式 的 罗列 ， 而 变 得 像 很 多 
剪贴 式 编著 的 IT 书籍 一 样 ? 

但 其 后 数 次 断 续 读 稿 时 沉浸 其 中 的 体验 打消 了 我 的 顾虑 。 我 几 次 
阅读 书稿 都 是 在 出 差 途中 〈 如 飞机 上 ) ， 一 个 很 深 的 体验 是 一 旦 开始 
阅读 就 不 愿 终止 ， 一 直 读 到 不 得 不 将 书稿 收 起 走路 为 止 。 另 一 个 体验 
是 ， 从 任何 一 个 间断 点 ， 都 可 以 把 本 书 当 作 入 口 ， 去 找寻 别 的 书籍 进 
一 步 深入 学 习 其 中 的 一 些 关 键 技术 ， 就 好 像 遂 数 调 用 一 般 ， 这 是 我 所 
期 望 的 带领 读者 进入 处 理 器 世界 的 导游 书籍 ， 因 此 非常 愿意 向 广大 的 
读者 推荐 这 本 书 。 

在 技术 书籍 的 阅读 中 ， 我 偏爱 爱 因 斯 坦 羡 释 的 方法 一 一 “在 所 阅读 
的 书 中 ， 找 出 可 以 把 自己 引 向 深入 的 东西 ， 把 其 他 的 一 切 统统 抛 掉 。” 
这 就 是 抛 掉 使 大 脑 负 担 过 重 和 把 自己 诱 离 要 点 的 一 切 。 

万 木 杨 的 这 本 书 ， 在 选材 上 围绕 处 理 器 的 核心 技术 ， 从 计算 机 发 
展 的 形态 、 历 史 展 开 叙 述 ， 在 简略 介绍 了 处 理 器 的 周边 设备 后 ， 迅 速 
深入 处 理 器 的 抽象 模型 ， 以 计算 机 软件 生态 系统 中 最 重要 的 指令 集体 


系 结构 ISA 切 入 到 探索 处 理 器 的 微 架 构 ， 对 处 理 器 微 架 构 的 一 些 核心 
技术 ， 如 流水 线 、 乱 序 执行 、 指 令 级 并 行 、 线 程 级 并 行 、 缓 存 结构 和 
算法 、 缓 存 一 致 性 等 概念 ， 言 简 意 赎 地 做 了 原理 靖 释 。 而 了 解 这 些 核 
心 概念 ， 是 理解 其 后 第 六 章 优化 代码 效率 的 基础 。 窃 以 为 这 些 章节 是 
本 书 的 “hardcore”， 很 值得 一 读 。 

在 本 书 的 写作 风格 上 ， 作 者 运用 了 很 多 朵 新 的 网 络 元 素 和 鲜 活 的 
比拟 来 厘清 概念 ， 比 如 用 《我 的 兄弟 叫 顺 溜 》 中 的 顺 溜 装 配子 弹 的 例 
子 来 开展 指令 流水 线 的 讨论 ， 既 不 流 于 表面 、 为 举例 而 举例 ， 又 一 以 
贯 之 地 将 每 个 案例 充分 展开 、 把 问题 说 透 ， 这 样 的 例子 在 本 书 中 比比 
皆 是 ， 也 是 我 推荐 该 书 的 原因 之 一 。 这 体现 了 “ 抛 掉 使 大 脑 负 担 过 重 *” 
的 原则 ， 以 及 作者 对 所 叙述 的 技术 的 深度 把 握 。 没 有 这 种 把 握 ， 是 很 
难 用 好 这 种 比拟 的 ， 反 而 容易 变 成 “< 男 虎 不 成 反 类 犬 ”。 

由 于 长 期 从 事 性 能 优化 工作 ， 此 前 也 出 版 了 一 本 针对 并 行 优 化 指 
南 的 书 ， 因 此 对 本 书 中 阐述 并 行 处 理 和 编写 高 效 代码 的 章节 仍 觉 意 犹 
未 尽 ， 这 让 我 想起 了 两 件 事 : 

其 一 ， 我 在 2001 年 左右 从 事 针 对 多 核 DSP 的 手写 汇编 代码 优化 工 
作 ， 就 是 本 书 里 所 总 结 的 VLIW 并 行 实 现 机 制 ， 当 时 一 个 很 深 的 感触 
是 ， 人 类 大 脑 的 并 行 度 很 低 ， 至 少 在 汇编 这 个 层级 ， 能 够 持续 对 多 个 
计算 单元 实现 高 效 并 行 处 理 编程 的 上 限 仅 怕 就 是 四 级 并 行 了 ， 人 的 大 
脑 有 所 谓 “ 一 心 不 可 二 用 ”的 限制 ， 因 此 ， 此 后 在 IA 平 台 上 ， 多 核 、 多 
进程 一 直到 大 规模 集群 的 并 行 开 发 的 方向 就 很 清楚 了 ， 就 是 必须 依赖 
高 级 语言 的 开发 工具 ， 支 持 并 行 实现 的 编译 器 、 数 学 库 和 线程 ，MPI 
进程 追踪 工具 和 类 似 Vtune 这 样 的 指令 微 染 构 行 为 的 示波器 ， 来 解放 人 
的 大 脑 。 另 一 方面 就 是 开发 新 的 并 行 编程 模型 和 语言 ， 进 一 步 释放 多 
核 处 理 器 的 性 能 。 

其 二 ， 在 一 本 论述 并 行 超级 计算 机 体系 架构 的 英文 专著 上 ， 我 曾 
读 到 一 段 话 ， 似 可 借 来 总 结 处 理 器 性 能 发 展 的 方向 。 即 ， 要 做 快 、 做 
好 一 件 事 ， 基 本 上 有 三 种 方法 。 一 是 把 事情 本 身 缩短 、 少 做 事 ， 这 就 


是 处 理 器 流水 线 效 率 、 分 支 预测 命中 率 等 等 技术 的 发 展 ， 体 现在 软件 
上 就 是 更 好 的 算法 和 更 短 的 代码 关键 路 径 。 二 是 做 得 更 快 、 更 勤 些 ， 
这 就 是 处 理 器 上 更 多 的 浮 点 计算 单元 、 更 高 效 的 缓存 、 新 的 高 效 指令 
集 直 到 AVX 这 样 的 高 密度 向 量 计算 指令 。 三 是 让 别人 去 做 或 者 和 别人 
一 起 做 ， 这 就 是 并 行 ， 多 线程 和 多 进程 的 并 行 工 作 。 处 理 器 的 发 展 ， 
从 性 能 上 看 ， 基 本 上 也 可 以 归 为 上 述 三 点 ， 比 照 本 书 的 结构 ， 读 者 也 
可 以 做 个 归纳 。 

未 来 的 发 展 ， 我 们 看 到 了 SOcC 的 兴起 ， 我 们 看 到 CPU 和 GPU 的 混 
合计 算 ， 我 们 也 看 到 英特尔 即将 推出 的 、 针 对 大 规模 并 行 应 用 、 集 成 
众 核 架构 的 协 处 理 模式 的 处 理 器 。 正 如 丘吉尔 所 言 ,，“ 你 能 看 见 多 久 的 
过 去 ， 就 能 看 见 多 远 的 未 来 "回顾 本 书 中 提 到 的 那些 引人入胜 的 处 理 
器 技术 的 来 龙 去 脉 ， 背 后 的 技术 原因 或 是 市 场 竞争 要 素 ， 奇 妙 之 处 在 
于 ， 处 理 器 的 技术 史 是 我 们 创造 出 来 的 ， 而 身 处 其 中 之 人 却 难 以 知 
晓 ， 那 就 让 我 们 “把 其 他 的 一 切 统统 抛 掉 ”， 一 起 踏 上 本 书 寻 宝 处 理 器 
的 引人入胜 之 旅 ! 是 为 序 。 


何 万 青 博士 
英特尔 数据 中 心 产品 部 “高 性 能 计算 工作 站 架构 师 


序 二 


发 明 第 一 台 计 算 机 的 科学 家 们 在 发 明 当 初 应 该 不 会 想到 ， 目 前 计 
算 机 的 使 用 就 像 水 银 一 样 无 孔 不 入 地 渗透 到 人 类 社会 的 各 个 方面 ， 并 
且 随 着 电子 、 光 电子 、 材 料 、 人 信息、 网络 技 术 的 不 断 朝 前 发 展 ， 会 进 
一 步 对 人 类 产生 巨大 影响 ， 人 类 将 越 来 越 依赖 计算 机 技术 。 

目前 许多 电子 产品 并 没有 明显 的 计算 机 三 个 字 出 现在 其 产品 说 明 
书 上 ， 但 实际 上 ， 几 乎 所 有 智能 或 部 分 非 智能 的 电子 产品 都 有 一 个 心 
脏 一 一 CPU 核 (计算 处 理 单元 ) 在 那里 跳动 。 这 个 心脏 的 计算 能 力 ， 
根据 产品 的 需求 ， 它 可 以 超级 强大 到 一 秒 钟 完成 50 亿 次 运算 ; 其 大 小 
根据 产品 需求 ， 也 可 以 小 到 只 有 几 十 个 微米 以 下 ， 同 时 还 具有 很 强 的 
计算 能 力 ， 从 而 使 得 这 个 心脏 的 功 耗 可 以 很 小 。 在 这 个 心脏 周围 配 上 
相关 的 硬件 、 软 件 束 成 为 一 个 智能 的 电子 产品 。 

对 大 多 数 人 来 讲 ， 计 算 机 是 一 个 这 一 般 的 东西 。 但 由 于 是 人 类 发 
明了 计算 机 ， 是 人 类 在 使 用 计算 机 ， 而 且 计 算 机 已 经 成 为 人 类 社会 不 
可 缺少 的 重要 组 成 部 分 ， 因 此 使 用 计算 机 的 人 应 该 或 多 或 少 对 计算 机 
有 所 了 解 。 但 如 何 获得 这 方面 的 知识 呢 ? 随便 到 书店 或 网 上 去 搜索 ， 
给 出 的 都 是 专业 的 解释 。 由 于 计算 机 产品 是 一 个 系统 ， 涉 及 到 与 计算 
技术 有 关 的 方方面面 ， 因 此 要 人 全面、 完整 、 很 容易 地 了 解 系统 的 知 
识 ， 对 非 从 事 这 行 的 普通 人 来 讲 确实 很 困难 。 

万 木 杨 让 我 给 他 的 新 书写 一 个 序 ， 我 看 完 《 大 话 处 理 器 》， 觉 得 
这 本 书 的 主要 对 象 就 是 为 了 这 些 想 了 解 这 个 这 的 读者 。 万 木 杨 在 计算 
机 、 通 信和 领域 工作 多 年 ， 在 这 方面 积累 了 很 强 的 专业 知识 ， 而 且 博 学 
多 才 ， 文 采 出 众 。 在 介绍 计算 机 及 其 相关 知识 时 ， 他 用 了 很 多 与 人 们 
日 党 生 活 相关 的 事物 来 进行 对 比 ， 一 步 一 步 地 帮助 读者 深入 。 


本 书 不 仅仅 是 对 计算 机 的 核心 技术 一 一 CPU 进 行 了 介绍 ， 而 且 涉 
及 与 CPU 相 关 的 多 个 方面 ， 包 括 硬件 、 软 件 等 等 ， 对 一 般 从 事 电子 产 
品 设计 的 专业 人 士 来 讲 ， 也 是 一 本 非常 有 用 的 参考 书 。 相 信 这 本 书 不 
仅 能 给 广大 读者 带 来 计算 机 方面 的 基础 知识 ， 而 且 能 帮助 大 家 用 好 计 
算 机 以 及 越 来 越 多 的 智能 产品 。 


周 峰 

原 浙江 大 学 信息 与 电子 工程 系 副 主 任 、 博 导 
原 Aitech 公 司 工程 部 主管 

原 VIMICRO 公 司 系统 工程 部 资深 总 监 
华为 美 研 所 专家 


序 三 ”处 理 器 一 一 半导体 显 峰 ， 纵 
横 四 十 年 


处 理 器 ， 这 个 半导体 科技 的 最 前 沿 ， 在 过 去 40 年 的 信息 化 浪潮 中 
充当 了 发 动机 的 核心 角色 。 它 是 如 此 高 贵 、 而 又 如 此 普及 ， 各 国政 府 
争 相投 资 ， 普 通 家 庭 却 人 人 拥有 ; 它 是 如 此 流行 、 而 又 如 此 神秘 ， 不 
只 工程 师 们 在 苦 苦 探 索 、 寻 微 知 著 ， 就 连 业 余 的 发 烧 友 们 也 都 对 它 津 
津 乐 道 、 魂 牵 梦 绕 。 

木 杨 兄 弟 是 一 位 热情 而 又 执着 的 DSP 领 域 工 程 师 ， 多 年 的 工作 ， 
让 他 在 DSP 领 域 驾 轻 就 熟 。 在 他 自由 和 抽 闭 后， 不 肯 专 美 ， 利 用 自己 的 
专业 背景 和 业余 时 间 ， 试 图 把 复杂 、 专 业 的 处 理 器 技术 通俗 化 ， 与 大 
家 分 享 ， 正 所 谓 “ 独 乐 乐 不 如 众 乐 乐 "， 真 有 侠客 之 风 也 。 

本 书 的 主人 丛 一 一 处 理 器 ， 上 自发 明之 初 至 今 已 有 40 多 年 的 历史 
了 ， 相 比 浩瀚 的 宇宙 ， 它 是 何其 短暂 ， 却 又 是 如 此 的 丰富 多 彩 ， 可 以 
说 ， 处 理 右 的 发 展 ， 印 证 着 人 类 信息 社会 飞速 发 展 的 轨迹 。 

第 一 次 作 序 ， 诚 悍 诚 了 巩 ， 只 了 盼 能 够 给 读者 一 个 兴趣 盘 然 的 开始 ， 
其 他 无 须 费 言 ， 就 此 打住 ， 仅 以 华为 公司 2010 年 处 理 器 技术 大 会 闭幕 
时 的 一 首 小 诗 开始 ， 引 导读 者 进入 探寻 处 理 器 神秘 硅 片 奥秘 之 旅 。 

华为 2010 年 处 理 器 技术 大 会 闭幕 词 : 

处 理 器 生态 圈 40 年 ， 沧 又 沿革 ， 英 雄 如 过 江 之 鲫 ， 重 呈 未 必 不 珠 
矶 ， 泰 斗 亦 只 能 为 一 家 之 言 。 然 ， 盛 况 者 唯 在 于 开放 互 师 ， 集 摸 象 之 
和 ， 共 探 未 知 ! 

附 拙 文 以 记 : 

阔 中 求 世 界 ， 乾 坤 即 微 丸 ; 

格物 无 穷尽 ， 妙 理 不 待 言 。 

今 开 三 尺 坛 ， 八 仙 咨 意 展 ; 


四 十 年 沧桑 ， 尽 赋 谈 笑 间 ! 


茶 绪 胸 
华为 处 理 器 行业 管理 协会 会 长 
公司 硬件 技术 开发 部 部 长 


ni} 


前 


正如 广告 语 说 的 那样 : 处 理 器 无 处 不 在 (Microprocessors are 
everywhere) 。 每 一 个 成 功 的 男人 背后 都 有 一 个 成 功 的 女人 ， 每 一 个 
成 功 的 电子 产品 里 面 至 少 有 一 个 成 功 的 处 理 器 。 不 管 是 我 们 经 党 使 用 
的 计算 机 、 手 机 、 汽 车 ， 还 是 为 我 们 服务 但 我 们 不 知道 它们 在 哪儿 的 
基站 、 服 务 器 、 交 换 机 等 ， 莫 不 如 此 。 我 们 身 处 的 电子 世界 ， 是 建立 
在 处 理 器 基础 之 上 的 。 前 科技 部 部 长 徐冠华 曾经 发 出 这 样 的 感叹 :“ 没 
有 自己 的 CPU 心 片 ， 我 们 的 信息 产业 大 厦 就 如 同 建立 在 沙 淮 上 。”* 正 因 


服务 器 的 处 理 器 被 Intel 和 IBM 把 持 着 ，PC 机 的 处 理 器 被 Intel 和 
AMD 把 持 着 ， 手 机 、 平 板 电脑 上 的 处 理 器 则 是 百家争鸣 ， 不 仪 有 传统 
的 高 通 、 博 通 、TI、Freescale 等 公司 ， 三 星 、 苹 果 、nVidia 等 公司 也 加 
入 了 战 团 。 另 外 ， 新 的 处 理 器 公司 也 依靠 自己 在 某 一 方面 的 独特 技术 
优势 而 备 受 追捧 ， 如 擅长 多 核 的 Tilera、 擅 长 可 配置 处 理 器 的 Tensilica 
等 。 

做 处 理 器 很 难 吗 ? 难 ， 也 可 说 不 难 。 说 它 难 ， 是 因为 从 头 设 计 一 
款 处 理 器 确实 很 难 ， 说 它 不 难 ， 是 因为 现在 可 以 买 到 一 大 堆 的 处 理 器 
IP 核 ， 如 ARM 核 、MIPS 核 、PowerPC 核 、Xtensa 核 等 ， 网 上 还 有 开源 
的 处 理 器 核 ， 用 这 些 处 理 器 IP 核 再 搭配 一 些 外 围 的 东西 ， 就 可 以 设计 
出 一 款 处 理 器 ， 交 由 心 片 代 工 三 生产， 就 得 到 了 一 颗 处 理 器 心 片 。 这 
个 行业 是 越 来 越 开放 ， 越 来 越 “ 混 乱 ”， 也 越 来 越 有 意思 。 


本 书 内 容 


本 书 是 一 本 图 文 并 成 、 生 动 幽默 的 处 理 器 科普 读物 ， 全 书 行文 风 
趣 幽 默 ， 用 类 比 来 解释 星 深 的 搁 术 ， 用 图 画 来 代替 枯燥 的 文字 。 本 着 


科技 以 人 为 本 的 理念 ， 本 书 除了 技术 外 ， 还 介绍 了 大 量 人 物 和 公司 的 
故事 ， 供 大 家 闲 读 。 本 书 站 在 一 个 软件 工程 师 的 角度 来 描述 处 理 器， 
书 中 没有 花 篇 幅 谈论 处 理 器 的 外 设 、 接 口 、 中 断 等 内 容 ， 而 是 更 多 地 
探讨 影响 处 理 器 性 能 的 流水 线 、 指 令 并 行 、 数 据 并 行 、 线 程 并 行 、 
Cache 等 内 容 。 

说 起 处 理 器 ， 自 然 不 能 不 提 计 算 机 ， 第 1 章 漫 游 计算 机 世界 ， 介 绍 
了 计算 机 的 前 世 今 生 ， 以 及 计算 机 的 五 脏 六 肪 、 七 经 八 脉 。 

第 2 一 5 章 从 外 到 内 ， 介 绍 了 处 理 器 的 外 表 和 内 心 结构 ， 处 理 器 的 
核心 技术 尽 在 于 此 。 了 解 了 这 几 章 ， 我 们 就 能 知道 一 款 处 理 器 擅长 做 
什么 事情 ， 不 擅长 做 什么 事情 。 第 6 章 向 软件 人 员 介 绍 了 怎样 编写 高 效 
代码 ， 处 理 器 的 客户 就 是 程序 员 ， 程 序 员 在 处 理 器 上 开发 程序 ， 对 处 
理 器 了 解 得 越 深 ,编写 出 来 的 代码 执行 效率 就 越 高 。 

第 7 章 介绍 了 一 大 堆 的 处 理 器 耻 公 司 ， 现 在 的 人 们 攒 电脑 ， 以 后 的 
人 们 说 不 定 就 能 攒 处 理 器 了 。 

第 8 章 走 进 处 理 器 的 内 “ 心 ” 世 界 ， 介 绍 处 理 器 心 片 是 怎么 设计 与 制 
造 出 来 的 。 


本 书 特色 


图 多 。 常 言 道 ， 文 不 如 表 ， 表 不 如 图 ， 图 一 来 可 以 节省 笔墨 ， 二 
来 可 以 迅速 向 读者 强化 作者 的 意思 ， 其 实 汉语 本 身 就 是 象形 字 ， 最 早 
也 是 从 图 演化 而 来 ， 以 图 代 文 也 是 理所当然 。 

语言 生动 、 幽 默 ， 多 用 类 比 。 一 个 东西 ， 这 样 说 不 容易 懂 ， 换 一 
种 说 法 就 容易 懂 了 ， 很 多 技术 也 来 源 于 生活 ， 技 术 和 生活 实例 联系 在 
一 起 ， 也 更 能 帮助 谈 者 理解 、 记 忆 。 

知识 面 广 、 新 凌 。 本 书 介 绍 了 大 量 的 公司 、 人 物 和 故事 ， 也 介绍 
了 计算 机 、 处 理 器 、 软 件 、 心 卢 设计 与 制造 。 


读者 对 象 


本 书 的 读者 对 象 是 对 计算 机 、 处 理 器 感 兴趣 的 人 员 ， 做 软件 开发 
的 人 员 ， 以 及 IT、 通 信 、 电 子 、 半 导体 行业 的 从 业 人 员 和 大 专 院 校 的 
学 生 。 喜 欢 技术 的 看 技术 ， 不 喜欢 技术 的 看 故事 。 


致谢 


感谢 漂亮 、 可 爱 的 曹阳 妹妹 为 本 书 作 画 ， 男 工 精湛 ， 创 意 一 流 。 
感谢 英特尔 高 性 能 计算 工作 站 架构 师 何 万 青 博士 在 百 忙 之 中 读 完 本 
书 ， 并 熬夜 作 序 ， 导 致 第 二 天 发 高 烧 ， 在 此 致 上 菊 意 。 感 谢 华 为 处 理 
器 行业 管理 协会 会 长 、 硬 件 技术 开发 部 部 长 蔡 绪 鹏 总 结 了 处 理 器 四 十 
年 的 发 展 历 程 ， 为 本 书 作 序 〈 注 : 根据 出 版 需要 ， 有 删 威 ， 原 文 参见 
作者 博客 ) 。 感 谢 原 浙江 大 学 信息 与 电子 工程 系 副 主任 、 博 导 ， 华 为 
美国 研究 所 专家 ， 资 深 硅 谷 人 士 周 峰 博士 ， 在 本 书 的 写作 与 出 版 上 ， 
提出 了 诸多 指导 意见 ， 并 作 序 。 感 谢 清 华 大 学 出 版 社 王峰 松 老师 为 本 
书 的 写作 与 出 版 莘 精 竭 虑 ， 出 谋划 策 。 感 谢 为 我 的 成 长 给 予 过 帮助 的 
所 有 人 。 

本 书包 含 大 量 的 图 片 ， 除 了 原创 的 漫画 、 示 意图 外 ， 还 包含 不 少 
历史 名 人 照片 、 剧 照 、 相 关 产 品 照片 、 互 联网 娱乐 照片 等 ， 此 外 ， 本 
书 还 有 少量 图 片 直接 引用 或 者 参考 了 现 有 的 学 术 示 意图 ， 这 些 图 片 来 
源 于 各 大 公司 官方 网 站 (如 Intel、TI、IBM 等 ) 、 国 外 著名 大 学 、 维 
基 百 科 等 网 站 ， 特 对 这 些 图 片 的 作者 和 所 有 者 表示 感谢 。 

本 书 从 2009 年 7 月 开始 写作 ， 大 约 花 了 两 年 时 间 ， 期 间 做 过 3 次 大 
的 结构 调整 ， 终 于 形成 了 现在 的 结构 。 本 书 接近 写成 之 际 ， 作 者 在 通 
信人 家 园 论 坛 里 连载 了 一 部 分 ， 得 到 了 不 少 好 评 ， 也 迅速 被 置顶 、 加 
精 、 进 入 论坛 首页 。 该 帖 在 华为 公司 内 部 也 被 多 次 转载 、 邮 件 传播 ， 
不 少 同事 的 相关 培训 PPT 直 接 引 用 作者 在 书 中 所 绘制 的 原 图 ， 相 信 本 
书 不 会 让 读者 失望 。 

本 书 邀 请 了 不 少 业 内 专家 进行 审查 ， 不 过 也 不 一 定 能 确保 完全 准 
确 无 误 ， 读 者 可 以 访问 .作者 的 博客 


( http://blog.csdn.net/muxiqingyang ) 或 微 博 
(http://weibo.com/muxiqingyang) 对 本 书 进行 批评 、 建 议 、 讨 论 ， 还 

可 以 下 载 作 者 为 本 书 所 设计 的 PPT， 也 可 以 通过 电子 邮件 
(muxiqingyang@qq.com) 和 作者 交流 。 


万 木 杨 
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第 1 章 ” 漫 游 计算 机 世界 
1 二 二 的 前 世 、 人 今生、 来 世 


佛 家 喜欢 谈 三 世 ， 即 前 世 、 今 生 和 来 世 。 我 们 


也 沾 沾 佛 祖 的 光 ， 来 谈 谈 计算 机 的 三 世 。 
1.1.1 i 的 诞生 
T 二 > 军用 到 一 于 家 


MD 


二 土司 不 在 的 
1.1.6 的 来 世 
TL 7 门 ] 别 类 


不 分 类 ， 就 不 利于 管理 ， 人 类 由 于 具有 归 类 的 
能 力 ， 才 不 会 被 周围 环境 的 复杂 性 所 压 垮 。 


1.3 PC 机 结构 探秘 


当 我 们 把 计算 机 和 人 做 类 比 时 ， 硬 件 融 相 当 于 
人 的 身体 ， 软 件 融 相 当 于 人 的 三 魂 七 魄 。 


13.1 处 理 器 ”一 颗 奔 腾 的 心 
| We, 诸 强 ”大 肚 能 容 ， 容 难 容 之 


139 7 业 发 展 态 志 


第 2 章 _ 初 识 处 理 器 -一 掀起 你 的 盖头 来 


2.1 .处理 器 是 怎样 工作 的 
硬件 搭 台 ， 软 件 唱戏 。 


理 器 的 玫 型 


2.1.1 便 连 线 电路 一 一 一 定 终身 

12 通用 英 型 ”硬件 搭 台 ， 软 件 唱戏 
2.2 ”怎样 3 站 理 器 一 一 处 理 器 的 编程 模型 

2.2.1 _ 软 硬 不 分 

2.2.2 _ISA 横 插 一 


2.3 ”处理 器 的 分 层 模 型 


如 果 用 软件 开发 的 流程 来 和 处 理 器 进行 对 比 ， 
那么 Architecture 就 好 比 需 求 ，Microarchitecture 好 比 
设计 ， 物 理 实现 好 比 真 正 的 代码 。 
有 什么 处理 器 适合 的 才 是 最 好 的 


选 处 理 器 就 像 找 老 小 ,没有 好 坏 之 分 ， 只 有 适 
合 与 不 适合 之 分 ， 适 合 的 才 是 最 好 的 。 
2.4.1 下 虽 标 便 实力 的 竞 


马术 寺 Sn 二 二 
D42 软 未 nS A 


第 3 章 ”指令 集 体系 结构 处 理 器 的 外 表 


3.1_ 指 令 集 是 什 和 


3.2.1 CISC 时 代 一 粗放 式 扩 张 


其 实 最 早 并 没有 CISC， 只 是 因为 RISC 出 现 
后 ， 才 有 了 CISC。 这 就 好 比 世 上 本 没有 旧 中 国 ， 只 
是 新 中 国 出现 了 ， 才 有 了 旧 中 国 。 


3.3 ”指令 集 的 五 打 金 花 
3.3.1 x86 一 一 倾 大 的 大 象 
3.3.2 ARM _- ”稳扎稳打 的 蚁 群 
3.3.3_MIPS 一 优雅 的 也 和 


3.3.4 Power 昔日 的 贵族 


3.3.6 至今 仍 在 服役 的 元 老人 
3.4_ 地盘 之 争 


不 管 你 是 狮子 还 是 羚 秆 ， 太 阳 升 起 的 时 候 你 惑 
得 开始 忠 了 。 同 样 的 一 幕 在 处 理 器 行业 也 一 样 发 生 
着 。 


3.4.1 _ 地盘 划分 
3.4.2 x86、ARM 之 战 
: AR Ek 


3.5.7 总结 


第 4 章 ” 微 架构 -一 处 理 器 的 内 心 世 界 
4.1 跟着 顺 溜 学 流水 线 


科学 管理 之 父 泰勒 认为 : 科学 管理 理念 的 精 允 
之 一 就 是 进行 流水 作业 。 


4.1.1_ 上 顺 溜 的 2 级 流水 线 
4.1.2 上 顺 溜 流 水 线 的 深 
2 请 < 至 | 已 作 
4.2.1 最 简单 的 3 级 流水 线 
4.2.2 ”史上 最 经 典 的 5 级 流水 线 


4.2.3 DSP 更 深 的 流水 线 


4.2.5 页 测 | 一 一 以 十 为 镜 ， 可 以 知 兴 和 夫 


处 于 的 乱 序 执行 


4.4 eT 行 设 i 并 行 ， 提 高 性 能 的 不 二 ; 


45 指令 Instruction Level Parallelism 


4.6 类 


世上 没有 无 缘 无 故 的 爱 ， 也 没有 无 缘 无 故 的 
恨 ， 没 有 无 缘 无 故 的 Superscalar， 也 没有 无 缘 无 故 
的 VLIW。 


A.5.1 已 从 行 的 4 有 如 太 i; 0“ 蚊 营 ” 
)。 二 JEL 


4.5.2 Superscalar 处 理 器 实例 Intel P4 CPU 
4.5.3 ”VLIW 人 处理 器 实例 -TI C6000 DSP 


4.5.4 ”Superscalar 和 和 VLIW 总 结 


行 (Data Level Parallelism 


线 行 (Thread Level Parallelism 


刘 、 关 、 张 三 兄弟 联手 ， 也 只 是 稍微 强 过 号 布 
一 点 点 ， 而 即使 是 强 如 旺 布 ， 最 终 还 是 政 不 过 曹操 
的 千 车 万 马 ， 可 见 一 个 人 的 力量 总 是 有 限 的 ， 人 多 
还 是 力量 大 ， 核 多 力量 也 大 。 
4.7.1 _ 多 线程 一 时 分 复 
4.7.2 _ 便 件 多 线程 一 一 让 我 来 帮 你 一 把 
4.7.3 多 核 一 一 从 “ 心 * 到 “ 蕊 ”的 跳 变 
4.7.4 ”各 种 硬件 多 线程 对 比 
行 总 结 


4 山 p 力 口 入 总 续 


4.9.1 处 理 器 性 能 公式 


5.1 


么 是 Cache 


宋 过 既 熟 悉 生 的 领 坪 


今天 要 上 《高 数 》 课 ， 就 把 《高 数 》 的 课本 放 
进 书 包 ， 明 天 要 上 《C 语 言 》， 就 把 书包 中 的 《高 
数 》 课 本 取出 来 ， 把 《C 语 言 》 课 本 放 进 书包 ， 这 
个 包 就 是 一 个 Cache (缓存 ) 。 


我 们 通 单 会 有 这 样 的 生活 习惯 ， 将 最 单 用 的 东 
西 放 在 桌 上 ， 这 样 可 以 最 方便 的 拿 到 ， 将 次 常用 的 
东西 放 在 抽 导 里， 也 能 较 快 的 拿 到 ， 将 不 常用 的 东 
西 放 在 箱子 里 ， 去 箱子 里 拿 东 西 需要 耗费 更 多 的 时 


间 。 

5.2.1 Cache 的 层次 刁 次 化 管理 

5.2.2 Cache 的 工作 方式 一 丘比特 之 全 ， 命 中 与 未 命中 
5.2.3 ”Cache 的 映射 方式 多 对 一 的 

5.2.4 ” ”Cache 的 写 1 尔 不 起 道 直 


5.3_ Cache 一致 性 


现实 生活 中 常常 会 出 现 因为 沟通 不 畅 而 导致 的 
扯皮 ， 一 方 修改 了 某 些 东西 ， 又 没有 及 时 通知 到 另 
一 方 ， 导 致 双方 掌握 的 信息 不 一 致 ， 这 就 是 一 致 性 


问题 。 
5.3.2_ Cache 一 致 性 的 底层 操 
5.3.3 Cache 一 致 性 协议 
5.4 吕 寻 址 存 人 名 件 管 理 的 Cache 


第 6 章 “编写 高 效 代码 “ “时 间 就 是 生命 


作为 程序 员 ， 我 们 应 该 勤俭 编码 ， 让 代码 使 用 
更 多 的 CPU 运算 量 ， 做 更 多 的 活 。 


6.2.3 _ 降低 数据 精度 -比特 也 要 省 


长 与 不 擅长 的 操作 。 

6.3.1 _ 少 用 乘 ; 

6.3.2_ 少 用 除法 、 求 余 

6.3.3_ 在 精度 允许 的 条 备 浮 点 数 定 点 

6.3.4 尽量 减少 分 支 

6.3.5 ”将 最 可 能 进入 的 枚 在 if 是 else 
] 方 辣 中 | 上 | 伏 折 捧 了 你 


处 理 器 运算 的 速度 像 锡 子 一 样 快 ， 但 是 存储 器 
的 访问 速度 像 乌 龟 一 样 慢 ， 而 且 越 是 远离 内 核 的 存 
储 器 ， 访 问 速 度 越 慢 。 


6.4.1_ 少 使 用 数组 ， 少 使 用 指 和 


6.4.3 一 次 多 访问 一 些 关 

6.4.4 ”数据 对 齐 访 j5 

6.4.5 ”大 数据 结构 时 的 Cache line 对 齐 

6.4.6_ 程序 、 数 据 访 问 符合 Cache 的 时 间 、 空 间 局 部 
6.4.7 多 线程 编程 时 ， 避 人 免 false sharing 


6.4.8 ”自己 管理 内 存 动态 分 配 


战场 上 讲究 知己 知 彼 ， 百 战 不 列 。 写 代码 时 ， 
这 个 “ 彼 ” 就 是 编译 器 。 


让 多 个 核 或 多 个 CPU 来 共同 完成 一 件 工 作 ， 这 
就 好 比 一 个 人 的 任务 ， 现 在 有 N 个 人 来 帮忙 ， 这 活 
怎么 分 呢 ? 


6.6.1 并行 计算 
6.6.2 OpenMP 


第 7 章 ” SOC 一 了 吸 星 大 法 


7.1_ SOC 大 一 统 时 代 


相信 在 不 久 的 将 来 ， 设 计 一 个 SOC 心 片 也 像 搭 
积木 一 样 简 单 。 
7.1.1 SOC 和 IP 
7.1.2 SOC 3 五 
7.2 JIP 核 


在 《 圣 斗 十 星矢 》 中 ， 神 斗士 几乎 就 是 黄金 圣 
斗士 的 翻版 ， 而 应 用 处 理 器 上 的 IP 核 也 几乎 能 在 PC 
机 上 找到 翻版 。 


72.1 CPUIP 
7.2.2 GPUIP 

7 DoS 

7.2.4 Video Engine IP 
7.2.5 其 他 IP core 
7.2.6_ 总 结 


第 8 章 “心路 历程 -一 明明 自 昌 我 的 < 心 ” 


NCD = nk YL VT7 
和 二 三 D 三] 41 妈 
8.1.3 时 序 逻 辑 电路 你 在 我 心中 留 下 了 记忆 
ZU 山 ~ / v7 4 YI 2 


8.1.4 


几 万 亿 个 游离 的 原子 ， 以 某 种 方式 聚集 在 一 
起 ， 以 复杂 和 奇妙 的 方式 构成 了 人 ， 几 十 亿 个 晶体 
管 ， 也 以 同样 复杂 奇妙 的 方式 组 织 在 一 起 ， 构 成 了 
处 理 器 。 


8.2.1 人 类 是 怎么 管理 复杂 区 
8.2.2_ 心 片 设计 流程 

8.2.3_ 便 件 描述 语言 软 人 硬 不 
8.2.4 ”逻辑 综合 


8.2.6 _ 物理 设计 


+ | ; 告 占 交 个 


芯片 所 使 用 的 硅 就 是 从 这 些 沙子 中 提炼 出 来 
的 ， 所 以 说 ， 半 导体 行业 真 可 谓 是 点 沙 成 金 的 行 
业 。 


8.3.1 _ 探索 微观 世 
8.3.2 芯片 制造 流程 


第 1 章 ”漫游 计算 机 世界 


从 起 源 中 理解 事物 ， 融 是 从 本 质 理解 事物 。 
一 一 杜 勒 鲁 奇 
你 对 以 往 知道 的 愈 多 ， 对 未 来 就 看 得 愈 远 。 


温 斯 顿 .丘吉尔 


导读 一人 机 大 战 


1997 年 5 月 3 日 至 11 日 ， 蝉 联 12 年 国际 象棋 世界 冠军 的 卡 斯 帕 罗 夫 与 IBM 公 司 研制 的 巨型 
计算 机 深蓝 进行 了 一 场 6 局 的 人 机 大 战 ， 看 看 下 图 卡 斯 由 罗 夫 的 表情 ， 你 就 知道 比赛 结 
了 ， 卡 斯 帕 罗 夫 以 2.5 分 比 3.5 分 的 总 成 绩 败 给 了 深蓝 。 


Gi 


May 11th, 1997 四 
Computer won world champion of chess 
(Deep Blue) (Garry Kasparov) 


(Reuters = Kyodo News) 


深蓝 PK 卡 斯 帕 罗 夫 


2011 年 2 月 14 日 ，IBM 的 计算 机 Watson 继 续 挑战 人 类 ， 这 次 的 挑战 项 目 是 知识 竞赛 ， 它 
的 对 手 是 知识 竞赛 电视 节目 “Jeopardy! ”有 史 以 来 最 强 的 选手 Ken Jennings 和 Brad Rutter， 这 3 
个 “人 ”抢答 主持 人 提出 的 各 种 稀奇 古怪 的 问题 ， 问 题 涉及 历史 、 时 事 、 和 科学、 艺术、 体育 、 
地 理 、 流 行文 化 、 文 学 与 语言 、 文 字 游戏 等 ， 结 果 Watson 以 大 比分 遥遥 领先 。 


ERNEWOY 


Watson 挑战 人 类 
不 是 人 脑 不 聪明 ， 只 是 电脑 太 疯 狂 。 下 面 我 们 先 来 回顾 计算 机 的 
故事 。 


1.1 计算 机 的 前 世 、 今 生 、 来 世 


从 起 源 中 理解 事物 ， 就 是 从 本 质 理解 事物 。 
杜 勒 鲁 奇 


你 对 以 往 知道 的 愈 多 ， 对 未 来 就 看 得 愈 远 。 
一 一 温 斯 顿 .丘吉尔 


地 球 的 任何 一 部 分 历史 ， 犹 如 一 个 士兵 的 生活 ， 由 长 期 的 无 聊 和 短期 的 恐怖 组 成 。 
一 一 德 雷 区.V- 埃 基 尔 


佛 家 喜欢 谈 三 世 ， 即 前 世 、 今 生 和 来 世 。 今 生 过 得 不 好 ， 那 是 因 
为 前 世 造 莹 了 ， 不 过 你 也 用 不 着 气 馆 ， 如 果 今生 好 好 修行 ， 来 世 还 是 
可 以 过 好 日 子 的 。 杜 勒 鲁 奇 说 ， 从 起 关中 理解 事物 ， 就 是 从 本 质 理解 


事物 。 我 们 也 沾 沾 佛 祖 的 光 ， 来 谈 谈 计算 机 的 三 世 。 
1.1.1 ”计算 机 的 诞生 
1。 计算 机 之 父 


计算 机 的 家 世 很 混乱 ， 因 为 有 3 个 人 都 被 人 们 称 为 “计算 机 之 父 ”。 
他 们 分 别 是 : 查尔斯 : 巴 贝 奇 (1791 一 1871， 英 国人 ) ,约翰 : 冯 : 诺 依 
曼 〈1903 一 1957， 匈 牙 利 人 ， 美 籍 ) ， 阿 兰 .图 灵 (1912 一 1954， 英 国 
人 ) 。 其 中 冯 : 诺 依 曼 作 为 “计算 机 之 父 ” 的 知名 度 最 高 。 

与 其 浪费 时 间 争 论 谁 做 的 贡献 多 一 点 ， 不 如 了 解 他 们 都 做 了 哪些 
贡献 。 央 视 《 对 话 》 栏 目 在 一 期 节目 中 邀请 了 《功夫 熊猫 》 的 导演 ， 


当主 持 人 称呼 他 为 “功夫 熊猫 之 父 ” 时 ， 他 谦逊 地 说 ， 我 更 像 是 功夫 能 
猫 的 叔 权 ， 很 多 的 人 一 起 完成 了 这 项 杰作 。 

计算 机 不 是 一 个 科学 发 现 ， 而 是 一 个 科学 和 工程 结合 的 系统 工 
程 ， 是 无 数 人 共同 努力 的 成 果 ， 因 此 ， 我 们 将 那些 做 出 突出 贡献 的 人 
尊称 为 “计算 机 之 叔 ? 或 “计算机 之 妨 " 可 能 更 为 合适 。 


2. 从 计算 器 到 计算 机 一 一 一 字 之 差 ， 天 坏 之 别 


计算 机 的 主要 工作 就 是 计算 ， 不 管 是 看 视频 还 是 上 网 ， 都 离 不 开 
计算 。 历 史上 和 计算 机 最 接近 的 东西 ， 当 属 计算 器 。 

1642 年 ， 法 国 大 科学 家 帕斯卡 发 明了 加 法 器 ， 我 们 在 高 中 学 过 他 
的 帕斯卡 定律 。1673 年 ， 德 国 大 科学 家 莱 布 尼 兹 发 明了 乘法 器 ， 后 来 
经 不 断 改进 ， 能 进行 加 、 减 、 乘 、 除 、 开 方 全 套 运 算 ， 我 们 在 大 学 学 
微 积分 时 听 过 他 的 名 号 。 

计算 机 相 比 计算 器 ， 最 大 的 不 同 在 于 它 的 程序 思想 。 
看 帕斯卡 笑话 ， 回 顾 高 中 物理 


一 群 伟大 的 科学 家 死 后 在 天 堂 里 捉迷藏 。 轮 到 爱 因 斯 坦 抓 人 ， 他 数 到 100 睁 开眼 睛 ， 看 
到 所 有 人 都 藏 起 来 了 ， 只 有 和 牛顿 还 站 在 那里 。 爱 因 斯 坦 走 过 去 说 :“ 和 牛顿 ， 我 抓 到 你 了 。” 牛 


上» 你 没 抓 到 牛顿 。” 爱 因 斯 坦 :“ 你 不 是 牛顿 你 是 谁 ? ”牛顿 说 :“ 你 看 我 脚下 是 什 

爱 因 斯 坦 低下 头 看 到 牛顿 站 在 一 块 长 宽 都 一 米 的 正方 形 的 地 板 上 ， 不 解 。 牛 顿 : “我 脚 
下 平方 米 的 方块 ， 我 站 在 上 面 就 是 牛顿 一 平方 米 ， 所 以 你 抓 到 的 不 是 牛顿 ， 你 抓 住 的 
是 帕斯卡 。 ”一 一 引 自 网 络 


3. 程序 思想 的 来 源 


1801 年 ， 法 国人 约瑟夫 . 玛 利 ' 亚 卡尔 创造 性 地 制造 了 一 人 台 织 布 机 。 
这 本 来 和 计算 机 没有 什么 关系 ， 不 过 这 台 织 布 机 十 分 的 巧妙 ， 它 织 
来 的 花样 可 以 通过 一 串 卡 片上 的 孔 来 决定 ， 人 们 事先 在 卡片 上 打 孔 来 
设计 织物 的 化 样 ， 机 器 融 可 以 织 出 这 种 花样 ， 颇 有 吕 通 过 软件 来 控制 
计算 机 的 概念 。 这 个 发 明 对 后 世 的 计算 机 影响 重大 ， 打 孔 机 控制 技术 
就 被 应 用 到 早期 电子 计算 机 的 输入 设备 上 。 也 有 人 说 ， 计 算 机 是 织 


机 的 后 代 。 从 这 里 我 们 可 以 看 出 ， 创 新 并 不 是 指 完 全 发 明 新 的 东西 ， 
把 一 个 领域 中 的 东西 搬 到 另 一 个 领域 ， 也 是 一 种 非常 好 的 创新 。 


约瑟夫 . 玛 利 : 亚 卡尔 


4. 计算 机 第 一 人 


真正 开始 研究 计算 机 和 去 实现 计算 机 ， 当 从 英国 人 查尔斯 : 巴 贝 奇 
开始 。 巴 贝 奇 在 他 的 自传 《一 个 哲学 家 的 生命 历程 》 里 ， 写 到 了 大 约 
发 生 在 1812 年 的 一 件 事 : 

“有 一 天 晚上 上， 我 坐 在 剑桥 大 学 的 分 析 学 会 办 公 室 里 ， 神 志 悦 属地 
低头 看 着 面前 打开 的 一 张 对 数 表 。 一 位 会 员 走 进 屋 来 ， 瞧 见 我 的 样 
子 ， 忙 喊 道 : ' 咀 ! 你 梦 见 什么 啦 ? ' 我 指 着 对 数 表 回答 说 : “我 正在 考 
虑 这 些 表 也 许 能 用 机 器 来 计算 ! *” 

巴 贝 奇 的 第 一 个 目标 是 制作 一 台 “ 差 分 机 *， 那 年 他 刚 满 20 岁 。10 
年 后 ，1822 年 ， 差 分 机 初战 告捷 ， 运 算 精度 达到 了 6 位 小 数 。 巴 贝 奇 进 
一 步 酝酿 运算 精度 为 20 位 的 差分 机 ， 然 而 ， 当 时 的 机 械 加 工 工艺 远 无 
法 支撑 这 么 高 的 精度 ， 因 此 该 项 目 以 失败 告终 。 


差分 机 失败 后 ， 巴 贝 奇 提出 了 一 项 新 的 更 大 胆 的 设计 。 他 最 后 冲 
刺 的 目标 ， 不 是 仅 仪 能 够 制 表 的 差分 机 ， 而 是 一 种 通用 的 数学 计算 
机 。 巴 贝 奇 把 这 种 新 的 设计 叫做 “分 析 机 ”。 他 从 法 国人 约瑟夫 . 玛 利 ; 亚 
卡尔 发 明 的 提花 织 布 机 上 获得 了 灵感 ， 分 析 机 设计 闪烁 出 了 程序 控制 
的 灵光 一 一 它 能 够 按照 设计 者 的 旨意 ， 自 动 处 理 不 同 函 数 的 计算 过 


程 。 


后 人 仿制 的 分 析 机 

巴 贝 奇 首先 为 分 析 机 构思 了 “ 存 贮 库 ”和 “运算 室 ”。 此 外 ， 巴 贝 奇 
也 构思 了 送 入 和 取出 数据 的 机 构 ， 以 及 在 “存储 库 ”" 和 “运算 室 ” 之 间 运 
前 数据 的 部 件 。 一 个 多 世纪 过 去 后 ， 现 代 计 算 机 的 结构 几乎 就 是 巴 贝 


奇 分 析 机 的 翻版 ， 只 不 过 它 的 主要 部 件 由 机 械 变 成 了 集成 电路 。 
此 ， 现 代 人 给 巴 贝 奇 封 了 一 个 “计算 机 之 父 ” 的 称号 。 

巴 贝 奇 的 另 一 个 重要 的 贡献 是 在 计算 机 控制 中 加 入 了 分 支 控 制 ， 
使 得 计算 机 和 计算 器 分 道 扬 镶 。 条 件 控制 非常 重要 ， 软 件 工 程 师 都 非 
单 熟悉 ， 程 序 的 流程 有 3 类 : 顺序、 分支、 循环， 分支 控 制 使 得 计算 机 
可 以 做 很 多 事 ， 而 不 像 计算 器 只 能 做 一 件 事 。 

巴 贝 奇 不 是 一 个 人 在 战斗 ， 他 在 研制 计算 机 的 过 程 中 ， 找 到 了 一 
个 志同道合 的 女 助 手 ， 她 就 是 英国 著名 浪漫 派 诗 人 和 拜 伦 的 女儿 一 一 爱 
达 . 拜 伦 〈 也 叫 爱 达 . 拉 弗 雷 斯 ， 同 丈夫 姓 ) 。 


查尔斯 :- 巴 贝 奇 


5。 第 一 位 程序 员 一 一 居然 是 个 女人 


爱 达 出 生 不 久 后 父母 离异 ， 爱 达 由 母 杀 抚养 成 人 。 深 受 数学 家 母 
杀 的 影响 ， 她 从 小 就 酷爱 数学 ， 一 直 醉 心 于 数学 研究 。 在 当时 ， 巴 贝 
奇 的 机 器 被 认为 是 没有 价值 的 ， 是 个 只 会 烧 钱 的 废物 ， 巴 贝 奇 拉 不 到 
经 费 ， 也 得 不 到 人 们 的 理解 ， 不 过 爱 达 却 非常 清楚 这 项 工作 的 意义 。 
爱 达 负责 为 这 人 台 还 没有 建成 的 机 器 写 程序 ， 她 创造 了 子 程 序 、 循 环 的 
概念 。 后 来 美国 国防 部 开发 了 一 种 面向 对 象 的 高 级 编程 语言 ， 为 了 纪 
念 这 位 计算 机 软件 的 开山 之 祖 ， 美 国 国 防 部 将 这 种 语言 命名 为 ADA 
( 爱 达 ) 。ADA 语 言 至 今 还 在 计算 机 的 某 些 领域 发 挥 着 重要 作用 ， 而 
爱 达 也 被 人 们 尊称 为 世界 上 第 一 个 程序 员 。 

程序 员 这 个 职业 一 般 被 认为 是 男性 职业 ， 就 像 我 所 在 的 公司 ， 写 
软件 的 男女 比例 都 快 到 10: 1 了 ， 不 想 第 一 位 程序 员 却 是 个 女人 ， 而 且 
是 个 诗人 的 女儿 ， 历 史 真 是 把 玩笑 开 大 了 。 

巴 贝 奇 和 爱 达 的 想法 超前 世界 太 多 年 ， 当 时 人 们 对 电 还 没有 太 深 
刻 的 认识 ， 机 械 水 乎 也 不 能 支撑 分 析 机 的 实现 ， 他 们 终 其 一 生 也 没 法 
制造 出 自己 所 设想 的 机 器 。 


到 大 半 个 世纪 之 后 ， 在 哈佛 大 学 攻读 博士 学 位 的 美国 青年 霍 德 
华 : 艾 肯 〈H'Aiken) ， 从 图 书馆 积 满 灰 侍 的 书刊 里 发 现 了 分 析 机 论 
文 。 巴 贝 奇 仿佛 还 在 同 他 娓 娓 交谈 ， 为 他 讲解 那 台 机 器 的 结构 ， 目 光 
中 充满 着 期 待 的 神色 。 以 艾 肯 所 处 时 代 的 科技 水 平 ， 已 经 能 够 实现 巴 
贝 奇 的 凤 愿 。 为 此 ， 他 写 了 一 篇 《自动 计算 机 的 设想 》 的 建议 书 ， 提 
出 要 用 机 电 方 式 ， 而 不 是 用 纯 机 械 方法 来 构造 新 的 “分 析 机 ”。 

1944 年 ， 在 IBM 公 司 提供 的 100 万 美元 资助 下 ， 义 肯 研 制 出 著名 的 
Mark I 机 电 式 计算 机 ， 设 计 思 想 几 乎 就 是 巴 贝 奇 分 析 机 的 翻版 ，Mark I 
当时 就 被 用 来 计算 原子 核 裂变 过 程 。1946 年 ， 艾 肯 发 表 文 章 写 道 : “这 
台 机 器 能 自动 实现 人 们 预先 选 定 的 系列 运算 ， 甚 至 可 以 求解 微分 方 
程 。” 这 是 对 巴 贝 奇 预言 最 好 的 验证 。 事 隔 多 年 后 ， 已 经 担任 大 学 教授 
的 艾 肯 博士 谈 起 巴 贝 奇 其 人 其 事 , 仍然 惊叹 不 已 ， 他 感慨 地 说 :“ 假 如 
巴 贝 奇 晚 生 75 年 ， 我 就 会 失业 。” 

巴 贝 奇 和 爱 达 是 不 外 的 ， 他 们 生前 所 作 的 工作 得 不 到 认可 ， 他 们 
将 种 子 种 在 了 地 下 ， 乎 勤 耕 耘 ， 但 收获 的 却 不 是 他 们 。 在 巴 贝 奇 近 80 
年 的 奋斗 生涯 里 ， 屡 战 展 败 ， 屡 败 屡 战 ， 他 始终 不 放弃 自己 对 崇高 理 
想 的 追求 。 正 如 他 经 常 所 说 的 那样 :“ 不 管 今天 怎样 被 认为 是 无 用 的 知 
识 ， 到 后 世 将 会 变 成 大 众 的 知识 ， 这 就 是 知识 的 生命 力 。” 

巴 贝 奇 和 爱 达 过 得 很 悲 催 ， 不 过 悲 催 的 不 仅 是 他 们 ， 还 包括 下 面 
这 位 。 


6. 图 灵机 


计算 机 领域 一 直 缺 少 一 个 奖项 。 诺 贝尔 奖 一 般 只 授予 基础 研究 的 
人 ， 像 计算 机 这 样 偏向 于 应 用 的 领域 却 是 很 难 获奖 。1966 年 ， 美 国 计 
算 机 协会 (Association for Computer Machinery，ACM) 设立 图 灵 奖 ， 
专门 奖励 那些 对 计算 机 科学 研究 与 推动 计算 机 技术 发 展 有 卓越 贡献 的 
杰出 科学 家 ， 图 灵 为 什么 能 担当 大 任 ， 因 为 他 是 用 理论 证 明 计 算 机 可 
行 的 第 一 人 。 


阿兰 :图 灵 于 1912 年 6 月 23 日 出 生 于 英国 伦敦 。 图 灵 很 小 的 时 候 就 
显示 出 了 自己 的 科学 家 天 分 ，3 岁 时 ， 他 把 玩具 木头 人 的 用 膊 磊 下 来 种 
植 到 花园 里 ， 想 让 它们 能 长 出 更 多 的 木头 。8 岁 时 ， 图 灵 写 了 一 部 “ 科 
学 著作 ”: 《关于 一 种 显微镜 》， 除 了 错 了 几 个 单词 外 ， 还 算是 有 板 有 
眼 。 


阿兰 .图 灵 
1936 年 ，24 岁 的 图 灵 发 表 了 一 篇 论文 《On computable numbers， 
with an application to the entscheidungs problem》 ( 论 可 计算 数 及 其 在 
判定 问题 中 的 应 用 ) 。 这 篇 论文 被 誉 为 是 前 明 计算 机 原理 的 开山 之 
作 : 


ON COMPUTABLE NUMBERS, 
WITH AN APPLICATION TO THE 
ENTSCHEIDUNGSPROBLEM 


By A. M. TURING 


[Received 28 May, 1936 一 Read 12 Novemiber 1936 ] 
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APPENDIX 


图 灵 的 著名 论文 


图 灵 在 这 篇 论文 中 ， 详 细 描 述 了 一 项 计算 任务 是 怎么 用 一 种 计算 
机 器 (Computing Machine) 来 完成 的 。 下 图 为 图 灵机 的 基本 组 成 : 


小 方 格 


读 写 头 指示 器 
图 灵机 基本 组 成 


图 灵 将 人 在 纸 上 的 计算 过 程 看 成 是 由 一 系列 机 械 的 行为 所 组 成 
的 ， 数 据 存 放 在 纸袋 上 ， 一 次 只 移动 一 格 ， 将 一 系列 大 的 步骤 拆 成 小 
的 步 又， 如 78x45， 先 计算 78x4， 再 计算 78x5， 而 78x4 又 可 以 再 分 成 
7x4 和 8x4， 所 有 的 计算 过 程 最 终 都 将 转换 成 非常 小 的 、 机 械 的 操作 过 
程 ， 当 前 时 刻 具 体 执行 到 哪里 通过 读 写 头 指示 器 决定 。 如 果 将 这 种 思 
想 和 现在 的 计算 机 类 比 一 下 ， 就 知道 : 纸袋 就 像 一 个 存储 器 ， 读 写 头 
就 像 是 程序 指针 。 现 代 计 算 机 的 思想 实际 上 和 图 灵机 是 一 样 的 ， 图 灵 
后 来 也 参与 了 计算 机 的 研制 工作 。 

与 汉 : 诺 依 曼 同 时 代 的 富 兰 克 尔 (Frankel， 冯 : 诺 依 曼 同 事 ) 在 回 
忆 中 说 : 冯 : 诺 依 曼 没 有 说 过 “存储 程序 ”型 计算 机 的 概念 是 他 的 发 明 ， 
却 不 止 一 次 地 说 过 ， 图 灵 是 现代 计算 机 设计 思想 的 创始 人 。 冯 : 诺 依 曼 
的 作用 是 使 世界 认识 了 由 图 灵 引 入 的 计算 机 基本 概念 。 

《时 代 》 杂 志 在 评价 冯 : 诺 依 曼 时 说 : 

事实 上 ， 从 耗资 1000 万 美元 的 超级 计算 机 到 今天 的 无 线 电话 和 菲 
比 玩 具 上 所 使 用 的 微小 心 片 ， 所 有 的 计算 机 都 有 一 个 共同 点 : 它们 都 
是 “) 马 : 诺 依 曼 机 ”"， 都 是 冯 : 诺 依 曼 基于 图 灵 在 20 世 纪 40 年 代 的 工作 所 提 
出 的 计算 机 的 基本 结构 的 变种 。 
图 灵 的 八卦 

图 灵 是 一 个 杰出 的 密码 破译 专家 ， 为 二 战 做 出 重要 贡献 ， 比 * 黄 依 
依 ” 要 厉害 很 多 。 当 时 德国 采用 一 种 叫做 * 谜 ”(\Enigma) 的 加 密 机 ， 
灵 成 功 的 设计 出 了 一 种 叫做 霹雳 阐 (Bombe) 的 机 器 ， 成 功 地 破译 了 
这 台 加 密 机 。 事 实 上， 生活 在 那个 时 代 的 很 多 科学 家 ， 都 或 多 或 少 地 
和 战争 联系 在 了 一 起 ， 如 香农 也 做 过 类 似 的 工作 。 

图 灵 也 是 人 工 智 能 的 先驱 ， 他 提出 了 一 个 模仿 游戏 试验 ， 后 人 称 
为 “图 灵 测 试 "?。 该 实验 把 被 提问 的 一 个 人 和 一 台 计 算 机 分 别 隔离 在 两 
间 屋 子 ， 让 提问 者 对 人 和 计算 机 进行 问答 测试 。 如 果 提 问 者 分 不 清 回 
答 者 是 人 还 是 机 器 ， 那 就 证 明 计 算 机 已 具备 人 的 智能 。 人 工 智能 和 计 


算 机 的 起 源 其 实 是 一 样 的， 早期 的 很 多 科学 家 研究 计算 机 ， 主 要 还 是 
想 用 它 来 模拟 人 类 大 脑 的 逻辑 思维 过 程 进行 运算 、 推 理 等 。 

图 灵 还 是 一 位 运动 健将 ， 他 在 1947 年 用 两 小 时 46 分 3 秒 跑 完了 马 拉 
松 ， 这 绝对 是 个 专业 级 的 成 绩 。 

图 灵 的 晚年 过 得 十 分 雪 惨 ， 他 是 一 个 同性 恋 ， 在 当时 并 不 能 得 到 
人 们 的 认同 ， 图 灵 因 同 性 恋 而 被 起 诉 ， 职 业 生涯 尽 毁 。1954 年 图 灵 因 
为 食用 沾染 氰 化 钾 的 苹果 而 死亡 。 

2009 年 9 月 ， 英 国 首 相 布朗 因为 当年 英国 政府 以 同性 恋 相 关 罪 名 起 
诉 图 灵 并 定罪 ， 导 致 他 自杀 身亡 ， 正 式 向 图 灵 道 歉 。 

像 图 灵 这 样 ， 活 着 的 时 候 悲 惨 ， 死 后 被 人 当成 宝 的 人 大 有 人 在 ， 
上 面 说 的 巴 贝 奇 与 艾 达 也 是 这 样 。 在 三 大 计算 机 之 父 中 ， 就 属 冯 : 诺 依 


曼 过 得 最 滋润 ， 生 前 得 到 的 采 誉 最 高 。 
7. 第 一 台电 子 计算 机 之 争 


很 多 课本 上 都 将 ENIAC 作 为 世界 上 第 一 台电 子 计算 机 ， 并 且 和 夸大 
冯 : 诺 依 曼 对 它 的 贡献 ， 其 实 不 然 。 

从 1939 年 天 1942 年 ， 约 翰 . 阿 塔 纳 索 夫 (John Vincent Atanasoff) 
和 克利 福 德 : 贝 利 (Clifford Berry) 在 衣 阿 华 州 立 大 学 物理 系 大 楼 的 地 
下 室 建 成 了 世界 上 最 早 的 电子 计算 机 ABC (Atansoff-Berry 
Computer) ， 这 台 计 算 机 就 是 以 他 们 的 名 字 命 名 的 。 

约翰 : 阿 塔 纳 索 夫 将 设计 计算 机 的 思路 宫 不 保留 地 告诉 了 毛 奇 莱 
(John William Mauchly) ，1946 年 ， 毛 奇 莱 和 艾 科 特 (John Presper 
Eckert) 建成 了 ENIAC 计 算 机 ， 并 在 世界 上 首次 取得 了 专利 。1973 
年 ， 美 国联 邦 州立 法 院 判 处 ENIAC 的 专利 无 效 ， 因 为 它 的 设计 思路 源 
自 约翰 : 阿 塔 纳 索 夫 的 发 明 ， 并 确认 阿 塔 纳 索 夫 是 第 一 个 电子 计算 机 方 
案 的 设计 者 。 


Es 纳 束 
中 
n 利 


二 


” 


毛 奇 莱 ( 左 ) 艾 科 特 ( 右 ) 

在 第 二 次 世界 大 战 期 间 ， 美 国 军 队 非 常 迫 切 地 需要 对 他 们 设计 的 
新 型 火炮 的 弹道 进行 计算 ， 当 时 ， 军 方 雇佣 了 成 百 上 千 的 人 力 * 计 算 
机 ”，Computer 这 个 词 最 早 是 指 从 事 计 算 的 人 ， 到 后 来 才 独 指 计 算 机 。 
当 军 方 得 知 电子 计算 机 可 以 将 弹道 表 的 计算 时 间 从 几 天 缩短 到 几 分 钟 
时 ， 军 方 决定 资助 ENIAC 计 划 。 

1943 年 ， 该 项 目 由 美国 国防 部 出 资 ， 宾 西法 尼 亚 大 学 承建 。 该 计 
算 机 直接 的 目的 是 在 第 二 次 世界 大 战 时 为 军 方 计算 弹道 的 轨迹 。 计 划 
总 是 赶不上 变化 ， 没 想到 德国 1945 年 就 投降 了 ， 不 过 ENIAC 的 研究 没 
有 停止 ， 因 为 计算 机 能 做 的 工作 远 不 止 计算 弹道 轨迹 这 么 简单 。 毛 奇 
莱 任 首席 设计 师 ， 艾 科 特 任 首席 工程 师 (当时 24 岁 ) 。 建 成 后 ， 
ENIAC 是 当时 世界 上 最 大 最 强 ， 也 是 最 有 影响 力 的 计算 机 ， 现 在 都 将 
它 认为 是 世界 上 第 一 台电 子 计算 机 。 

1997 年 ， 为 了 纪念 这 台电 子 计算 机 诞生 50 周 年 ， 一 群 宾 西 法 尼 亚 
大 学 的 学 生 制 造 了 单 蕊 片 的 ENIAC， 这 个 以 前 占 地 1800 平 方 尺 、 重 30 
吨 、 耗 电 170 千 瓦 的 庞然大物 现在 被 微缩 到 只 有 拇指 甲 大 小 的 心 片上 。 


8。. 冯 . 诺 依 曼 机 


历史 上 ， 享 有 数学 家 称号 的 人 不 少 ， 但 是 享有 大 数学 家 称号 的 人 
不 多 ， 冯 : 庄 依 曼 就 是 其 中 一 个 ， 在 他 参与 ENIAC 研 制 前 ， 就 已 经 是 赫 
赫 有 名 的 大 数学 家 了 ， 而 且 他 涉猎 极 广 ， 会 7 种 语言 ， 他 和 经 济 学 家 摩 
根 一 起 合 著 了 《博弈 论 与 经 济 行为 》， 创 立 了 博弈 论 。 冯 : 诺 依 曼 有 名 
名 言 :“ 如 果 人 们 不 相信 数学 很 简单 ， 只 是 因为 他 们 没有 认识 到 生活 有 
多 复杂 。” 

冯 : 诺 依 曼 于 1903 年 出 生 于 匈牙利 的 犹太 人 家 族 ， 后 来 来 到 美国 。 
1944 年 ， 诺 伊 曼 参 加 原子 弹 的 研制 工作 ， 该 工作 涉及 极为 困难 的 计 
算 。1944 年 夏 的 一 天 ， 正 在 火车 站 候车 的 诺 依 曼 巧遇 戌 尔 斯 坦 ， 并 同 
他 进行 了 短暂 的 交谈 。 当 时 ， 戈 尔 斯 坦 是 美国 弹道 实验 室 的 军 方 负责 


人 ， 他 正 参 与 ENIAC 计 算 机 的 研制 工作 。 戈 尔 斯 坦 告 诉 了 冯 : 诺 依 曼 有 
关 ENIAC 的 研制 情况 。 具 有 和 远见 卓识 的 冯 : 诺 依 曼 立即 为 这 一 研制 计划 
所 吸引 ， 他 意识 到 了 这 项 工作 将 产生 深远 的 意义 。 


ENIAC 


冯 -. 诺 依 曼 

1944 年 ， 冯 : 诺 依 曼 加 入 了 ENIAC 团 队 ， 为 ENIAC 提 出 了 很 多 好 的 
建议 。 在 冯 : 诺 依 曼 加 入 到 ENIAC 团 队 中 时 ，ENIAC 的 研制 已 经 没有 什 
么 大 的 障碍 了 ， 人 们 开始 把 注意 力 转向 下 一 代 计 算 机 一 一 EDVAC， 冯 
: 诺 依 曼 也 开始 研究 新 机 器 的 逻辑 结构 。 

1945 年 6 月 ， 冯 : 诺 依 曼 提 交 了 他 著名 的 101 页 的 “关于 EDAC 的 报告 
草案 *?"， 里 面 描 述 了 计算 机 的 逻辑 结构 ， 尤 为 重要 的 一 点 是 提出 了 “ 存 
储 程序 ”的 思想 。 

说 来 懈 愧 ， 我 在 学 校 学 习 计算 机 的 时 候 ， 就 知道 了 “存储 程序 ”这 4 
个 字 ， 却 一 直 不 知道 它 是 什么 意思 ， 满 以 为 它 是 一 种 非常 高 深 的 技 
术 ， 后 来 查阅 了 文献 才 知 道 ，ENLAC 的 编程 是 通过 手动 设置 开关 和 插 
拔 电 线 来 实现 , “存储 程序 (stored-program) ”的 意思 就 是 将 程序 存储 
到 计算 机 内 部 ， 计 算 机 自动 执行 。 这 种 思想 在 现在 看 来 是 天 经 地 义 
的 ， 不 过 在 那 时 却 是 个 创举 。 

冯 : 诺 依 曼 定 义 EDVAC 分 为 5 个 部 分 : GD 运算 单元 ，@ 控 制 单元 ， 
G) 存 储 单元 ， 旬 输入 单元 ， 名 输出 单元 ， 现 在 的 计算 机 也 都 使 用 这 个 


结构 ， 人 们 把 这 个 结构 的 计算 机 称 为 “ 冯 诺 依 曼 机 ”。 
9. 逻辑 学 家 和 工程 师 的 矛盾 


冯 : 诺 依 曼 的 报告 一 经 推出 ， 就 掀起 了 世界 的 计算 机 热潮 ， 成 为 划 
时 代 的 报告 ， 然 而 冯 : 诺 依 曼 在 报告 中 没有 团 上 毛 奇 莱 和 苹 科 特 的 名 
字 ， 一 个 人 把 风头 全 占 了 ， 这 令 他 们 十 分 的 不 满 ， 争 论 的 焦点 是 ， 
EDVAC 到 底 有 多 少 是 冯 : 诺 依 曼 个 人 的 贡献 。 这 个 问题 可 能 永远 也 无 
法 弄 清 楚 。 艾 科 特 称 他 们 早 就 有 了 “存储 程序 ”的 想法 ， 只 是 还 没有 实 
现 。 

毛 奇 莱 和 艾 科 特 还 是 很 有 商业 头脑 的 ， 他 们 试图 将 做 的 工作 转换 
为 商品 ， 力 争 得 到 ENIAC 和 EDVAC 的 专利 权 ， 但 是 由 于 冯 : 诺 依 曼 的 
草案 已 经 散发 ，EDVAC 已 经 不 能 申请 专利 。 他 们 收 到 了 ENIAC 的 专 
利 ， 不 过 后 来 又 被 法 庭 宣布 无 效 。 

因为 专利 的 所 有 权 问 题 ， 毛 奇 莱 、 艾 科 特 和 学 校 改 生 了 分 歧 ， 他 
们 于 是 退出 了 学 校 ， 成 立 了 世界 上 第 一 个 计算 机 公司 一 一 艾 科 特 一 毛 
奇 莱 公 司 。 一 年 后 ， 公 司 发 生 亏 损 ， 不 得 不 宣告 破产 ， 后 来 被 
Remington Rand 收 购 ， 毛 奇 羔 和 苹 科 特 于 是 又 专心 从 事 计 算 机 的 研 
究 ， 他 们 后 来 又 设计 出 了 著名 的 UNIVAC 计 算 机 。 

毛 奇 莱 和 艾 科 特 离开 后 ， 宾 西法 尼 亚 大 学 元 气 大 伤 ， 冯 : 诺 依 曼 也 
离开 了 EDVAC 研 制 小 组 ， 回 到 普林斯顿 高 等 研究 院 ， 在 那里 研制 阿 艾 
斯 机 (IAS) 。 


10。 总结 


阿兰 :图 灵 提 出 了 图 灵机 的 理论 ， 证 明了 研制 通用 计算 机 的 可 能 
性 ,约翰 : 阿 塔 纳 索 夫 和 克利 福 德 : 贝 利 用 电子 元 件 制 造 出 了 电子 计算 机 
的 锥 形 ， 毛 奇 莱 和 苹 科 特 吸 收 阿 塔 纳 索 夫 的 思想 ， 依 托 军 方 的 资金 支 
持 ， 制 成 了 第 一 台 通 用 电子 计算 机 ， 冯 : 诺 依 曼 将 电子 计算 机 的 结构 逻 
辑 化 、 系 统 化 ， 奠 定 了 电子 计算 机 的 系统 结构 。 


1.1.2 ”从 军用 到 民用 一 一 飞 入 寻常 百姓 家 
1. IBM 的 诞生 


IBM 对 计算 机 做 出 了 重要 贡献 ， 虽 然 现 在 更 多 的 涉及 信息 服务 
业 ， 但 是 仍然 是 计算 机 领域 的 重量 级 选手 ， 服 务 器 、 处 理 器 、 芯 片 制 
造 等 领域 都 居于 业界 前 列 。 

IBM 的 历史 ， 最 早 可 以 追溯 到 “ 制 表 机 器 公司 ” 

美国 完 法 规定 ， 每 10 年 要 在 全 国 进行 一 次 人 口 普查 ， 以 便 决定 每 
个 州 议 员 的 人 数 。 最 早 一 次 人 口 普查 是 1790 年 ， 花 了 9 个 月 时 间 ， 到 了 
1880 年 ， 由 于 人 口 急剧 增加 ， 居 然 花 了 7 年 半 ， 这 就 好 比 一 顿 饭 吃 了 4 
个 小 时 ， 中 午饭 还 没有 消化 ， 又 要 开始 准备 吃 晚 饭 了 。 于 是 当局 认识 
到 : 必须 要 有 机 器 来 帮助 自动 化 处 理 。 美 国人 口 普查 局 拿 出 一 大 笔 奖 
金 ， 希 望 有 一 个 发 明 者 来 帮助 做 这 些 事情 。 

所 谓 重 赏 之 下 ， 必 有 勇 夫 ， 在 这 个 背景 下 ， 霍 勒 里 斯 应 运 而 生 ， 
他 发 明了 机 械 制 表 机 ， 并 创建 了 “ 制 表 机 器 公司 ”。 经 过 多 次 的 转手 和 
重组 ， 最 后 公司 转 到 了 老 托马斯 : 沃 森 手 中 ， 更 名 为 国际 商用 机 器 公司 
(IBM) 。 


机 械 制 表 机 

第 二 次 世界 战争 是 机 械 时 代 和 电子 时 代 的 分 水 岭 。IBM 自 己 研制 
和 资助 别人 研制 了 几 台 计算 机 ， 而 真正 帮助 IBM 在 商业 上 成 功 的 计算 
机 是 701 计 算 机 。 

701 计 算 机 研制 的 动力 来 自 于 1950 年 的 朝鲜 战争 ， 当 时 老 托马斯 询 
问 美国 政府 : 公司 能 为 战争 做 什么 ? 他 马上 被 告知 : 给 国防 部 捐 一 台 
大 型 的 计算 机 。 

1951 年 ，IBM 着 手 开 发 这 台 计 算 机 ， 同 时 聘请 冯 : 诺 依 曼 担任 公司 
的 科学 顾问 ，1952 年 IBM 完 成 了 701 计 算 机 的 开发 ， 后 来 又 生产 了 18 
台 ， 几 台 送 给 了 政府 ， 几 人 台 卖 给 了 公司 ， 这 是 世界 上 最 早 大 规模 商用 
的 计算 机 。 

IBM 对 朝鲜 战争 的 投入 ， 可 不 只 几 台 计算 机 。IBM 那 时 以 精密 机 
械 制造 擅长 ，IBM 和 另 一 家 公司 为 美国 军 方 生 产 M1918A2 孝 朗 宁 自动 
步枪 ， 该 枪 也 是 朝鲜 战争 时 期 的 主力 步枪 。 

20 世 纪 50~70 年 代 ， 是 IBM 的 黄金 年 代 ，IBM 在 全 球 计算 机 行业 
处 于 绝对 的 领导 地 位 ， 罕 有 对 手 。 它 的 企业 标志 一 一 IBM， 每 个 字 由 8 


根 蓝 条 拼 成 ， 它 的 销售 人 员 ， 一 律 穿着 深 赣 色 的 西服 ， 衬 托 出 IBM 不 
可 一 世 的 轮廓 ， 人 们 开始 把 IBM 称 作 “ 蓝 色 巨 人 ”。 


2. 小 型 机 的 兴起 


随 着 战争 的 结束 ， 军 用 计算 机 的 时 代 已 经 过 去 ， 随 之 而 来 的 是 公 
司 和 学 校对 计算 机 的 需求 大 增 。 一 大 批 新 的 计算 机 公司 应 运 而 生 ， 其 
中 的 佼佼 者 就 是 数字 设备 公司 (DEC) 。 

1953 年 冬天 ， 有 一 个 年 轻 的 工程 师 在 IBM 实 验 室 大 门 外 ， 信 和 暂 旦 
旦 地 说 : “我 要 在 IBM 的 地 盘 上 将 IBM 击 败 "”， 这 个 人 就 是 Kenneth 
Olseno 

1957 年 ，Kenneth Olsen 创 立 了 DEC 公 司 ,， 为 了 不 引起 IBM 的 注 
意 ， 防 止 它 打压 ， 公 司 的 名 字 和 产品 的 名 字 起 得 非常 有 讲究 ，DEC 是 
Digital Equipment Company 的 缩写 ， 故 意 不 涉及 计算 机 字眼 。1959 
年 ，DEC 的 第 一 台 计 算 机 PDP-1 (Program Data Processor) 上 市 。 相 对 
于 IBM 的 庞然大物 ，PDP-1 只 有 冰箱 这 么 大 ， 可 以 说 是 小 巧 玲珑 。 
Olsen 也 获得 了 “小 型 机 之 父 ” 的 称号 。 到 了 70 年 代 ，DEC 成 为 与 BM 齐 
名 的 世界 第 二 大 计算 机 公司 ， 事业 到 达 了 襄 峰 ， 不 过 DEC 却 一 直 没 有 
能 够 打败 IBM。 


小 型 机 之 父 


Kenneth Olsen 


华人 与 计算 机 

值得 一 提 的 是 ， 计 算 机 的 发 展 史上 有 两 个 华人 做 出 了 突出 贡献 。 

朱 传 转 ， 他 参与 了 ENIAC 设 计 ， 获 得 了 1981 年 计算 机 先驱 奖 。 

王 安 ， 他 发 明了 “ 磁 芯 存储 器 ”等 多 项 技术 ，1988 年 ， 被 选 入 美国 发 明 家 名 人 堂 。 王 安 创 
办 了 王 安 电脑 公司 ， 曾 经 红 极 一 时 ， 不 过 后 来 王 安 执意 将 公司 传 给 自己 的 儿子 ， 再 加 上 其 他 
一 系列 的 失误 ， 公 司 最 终 倒闭 。 


1.1.3 ”个 人 计算 机 时 代 一 一 英雄 奉 出 的 时 代 


什么 是 历史 ,什么 是 英雄 ， 是 英雄 造就 了 历史 ， 还 是 历史 成 就 了 
英雄 ? 个 人 计算 机 时 代 正 是 个 英雄 辈出 的 时 代 ! 这 个 时 代 属 于 Intel， 
Microsoft, Apple, IBM, HP...... o 


| 
诞生 | [微软 诞生 ] | 苹果 诞生 | | ， 诞 生 一 统 PC 业 
1968 年 1974 年 1975 年 1976 年 1981 年 1984 年 80、90 年 代 


个 人 计算 机 发 展 历程 


1。Intel 诞 生 


硅谷 

1955 年 秋天 ,“ 晶 体 管 之 父 ” 肖 克利 从 加 利 福 尼 亚 商人 Arnold 
Beckman 那 里 得 到 了 资金 支持 ， 回 到 了 自己 的 故乡 加 利 福 尼 亚 的 Palo 
Alto 创 立 了 “ 肖 克 利 半 导体 实验 室 ”。Palo Alto 同 时 也 是 斯 坦 福 大 学 和 惠 
普 的 所 在 地 ， 这 里 是 一 个 狭长 的 山谷 ， 空 气 清新 ， 和 气候 宜 人 ， 当 地 人 
叫做 Bay Area 〈 湾 区 ) 。 肖 克利 把 半导体 带 到 了 这 里 ， 这 之 后 的 几 十 
年 ， 这 里 成 为 了 举世 闻名 的 “人 硅谷"?， 据 说 ， 加 州 每 年 制造 的 晶体 管 数 
目 比 下 的 雨滴 还 多 。HP、Intel、Cisco、3Com、Sun、AMD、Oracle、 
Apple、Adobe、Yahoo、Google、Facebook 等 公司 的 总 部 都 建 在 这 里 。 
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-Ed 


Google 总 音 


Facebook 总 音 

山 不 在 高 ， 有 仙 则 名 。 合 不 在 深 有 人 硅 则 灵 ! 

肖 克 利 从 全 国 招 了 一 批 有 才华 的 年 轻 工 程 师 、 物 理学 家 、 化 学 
家 。 肖 克利 是 一 个 优秀 的 科学 家 ， 但 却 不 是 一 个 优秀 的 管理 者 。 他 在 
贝尔 试验 室 时 ， 总 认为 别人 抢 走 了 本 属于 自己 的 荣誉 ， 因 此 在 公司 
里 ， 所 有 的 构思 和 发 展 方向 都 由 他 来 决定 ， 他 所 雇佣 的 那些 有 才华 的 
人 ， 在 他 严厉 的 管理 方式 下 无 休止 的 工作 着 。1957 年 ， 以 Robert 
Noyce 和 Gordon Moore 为 首 的 8 个 人 找到 了 Beckman， 要 求解 除 肖 克利 
的 管理 职务 ， 只 允许 肖 克 利 作 为 一 个 技术 顾问 ，Beckman 认 真 的 考虑 
了 一 个 月 ， 最 后 还 是 决定 让 肖 克 利 继续 领导 。 随 后 ， 后 来 被 称 为 “硅谷 
八 叛 将 (Traitorous Eight) ”的 这 8 个 人 离开 了 公司 。 
Robert Noyce 


“硅谷 八 捧 将 ” 秤 职 后 ， 他 们 组 建 了 一 个 名 为 Fairchild 
Semiconductor ( 仙 童 半导体 ) 的 公司 ， 由 Fairchild Camera and 
Instruments 公 司 提供 资金 支持 。Noyce 任 总 经 理 。 

当时 ，Noyce 和 德州 仪器 的 Jack Kilby 分 别 发 明了 集成 电路 ，2000 
年 ， 瑞 典 皇 家 科学 院 决 定 把 当年 的 诺 贝 尔 物理 学 奖 颁 给 集成 电路 的 发 


明 人 ,但 当时 Noyce 已 亡故 ， 由 于 诺 贝 尔 奖 在 传统 上 不 授予 已 亡故 的 
科学 家 ， 因 此 Kilby 独 享 了 此 项 殊荣 。 

仙 童 半导体 公司 在 Noyce 的 精心 运筹 下 ， 业 务 迅速 地 发 展 。 同 
时 ， 一 整套 制造 晶体 管 的 平面 处 理 技术 也 日 趋 成 熟 ， 这 得 益 于 “硅谷 八 
白 将 ”之 一 的 Jean A. Hoerni， 他 发 明了 半导体 制造 工艺 中 至 关 重 要 的 平 
面 处 理 技 术 ， 极 大 地 降低 了 半导体 器 件 的 价格 ， 为 集成 电路 的 成 功 创 
造 了 前 提 ， 从 而 获得 1980 年 的 计算 机 先驱 奖 。 

后 来 ， 仙 童 半导体 的 母 公司 不 断 把 利润 转移 到 东海 岸 ， 使 得 创业 
团队 十 分 恼火 。 于 是 ， 典 型 的 资方 和 管理 团队 的 矛盾 出 现 了 。8 叛 将 中 
的 7 个 重新 出 逃 创业 ， 其 中 ，Robert Noyce 和 Gordon Moore 于 1968 年 创 
立 了 Itel (INTegrated Electronics 的 缩写 。AMD、 美 国 国家 半导体 、 
LSI Logic、VLSI Technology、Intersil、Altera 和 Xilinx 等 业界 众多 巨 璧 
的 创始 人 都 来 自 仙 童 半导体 。 苹 果 公司 的 乔布斯 有 这 样 的 比喻 :“ 仙 重 
半导体 公司 就 像 个 成 熟 了 的 蒲公英 ， 你 一 吹 它 ， 这 种 创业 精神 的 种 子 
就 随 风 四 处 飘扬 了 ”由 于 “硅谷 ”很 多 企业 都 和 Noyce 有 直接 或 者 间接 
的 关系 ，Noyce 更 是 被 人 送 了 一 个 绰号 一 一 “硅谷 市 长 ”。 


硅谷 八 叛 将 ， 各 个 身 怀 绝技 并 事业 有 成 


Gordon Moore 


Gordon Moore 在 国内 比 Noyce 更 出 名 ， 因 为 大 家 耳熟能详 的 摩尔 
定律 就 是 他 说 的 ， 关 于 摩尔 定律 有 多 个 版 本 ， 最 常见 的 版 本 是 集成 电 
路 上 晶体 管 的 数目 每 18 个 月 翻 一 番 ， 也 有 每 一 年 翻 一 番 和 每 两 年 翻 一 
番 的 版 本 。 摩 尔后 来 自己 说 :“ 摩 尔 定律 源 自 1965 年 我 为 《电子 学 》 撰 
与 的 文章 。 我 预见 到 ， 我 们 将 制造 出 更 复杂 的 电路 从 而 降低 电器 的 成 
本 一 一 根据 我 的 推算 ，10 年 之 后 ， 一 块 集成 电路 板 里 包含 的 电子 元 件 
会 从 当时 的 60 个 增加 到 6 万 多 个 。 那 是 个 胆 大 的 推断 。1975 年 ， 我 又 对 
它 做 了 修正 ， 把 每 一 年 翻 一 番 的 目标 改 为 每 两 年 翻 一 番 。” 《5 引 自 Intel 
网 站 ) 

不 管 是 12 个 月 ， 还 是 18 个 月 ， 还 是 24 个 月 等 ， 摩 尔 定律 描述 了 一 
种 指数 增长 的 趋势 ， 指 数 增长 是 非 昔 吓人 的 ， 稍 微 碟 几 下 融会 得 到 一 
个 天 文 数字 。 如 果 你 用 信用 卡 ， 欠 了 银行 一 块 钱 不 还 ，20 年 后 ， 银 行 
可 能 要 让 你 还 几 十 万 ， 这 是 因为 银行 是 用 复 利 来 计算 的 ， 复 利 就 是 指 
数 ， 增 长 势头 吓人 。 

Andy Grove 


Andy Grove 是 Intel 的 第 3 个 员工 ， 他 在 业界 享有 盛名 ， 一 方面 是 因 
为 他 领导 Intel 时 ， 是 Intel 的 鼎盛 时 期 ，1997 年 美国 《时 代 周 刊 》 授 予 
他 “年 度 风云 人 物 ”"，1998 年 美国 管理 学 会 赋予 他 “年 度 杰 出 经 理 ”， 
2001 年 他 获得 战略 管理 协会 “终身 成 就 奖 >"，2004 年 被 沃 顿 商学 院 提 名 
为 25 年 来 最 有 影响 力 的 CEO。 

还 有 一 个 原因 是 Andy Grove 写 过 一 本 畅销 书 《Only the Paranoid 
Survive》， 这 本 书 在 中 国 被 翻译 为 : 《只 有 偏执 狂 才能 生存 》， 这 人 句 
话 一 直 像 圣经 一 样 激励 着 无 数 有 梦想 的 人 ， 事 实 上 ， 很 多 人 理解 的 这 
句 话 的 意思 和 格 鲁 夫 (Grove) 说 的 并 不 是 同一 个 意思 。 英 文 词 和 中 文 
词 在 直接 翻译 时 会 存在 意义 偏差 , “偏执 狂 ” 这 个 词 通俗 意思 是 指 一 个 
人 目标 执着 ， 近 乎 固执 ， 撞 了 南 墙 也 不 回头 ， 而 医学 上 的 解释 则 是 一 


个 人 有 妄想 症 ， 极 度 的 敏感 多 疑 ， 思想 行为 固执 死板 。 在 《Only the 
Paranoid Survive》 这 本 书 中 ， 作 者 开篇 着 重 描述 让 Intel 6 周 损失 4.75 亿 
美金 的 奔腾 心 片 浮 点 bug 事 故 ， 后 面 讲 的 都 是 变化 ， 以 及 改变 就 能 生 
存 ， 不 改变 就 会 炙 亡 。 整 本 书 的 主题 是 要 想 生 存 ， 就 必须 敏感 的 感受 
变化 ， 拥 抱 变化 ， 并 采取 行动 。 或 许 这 句 话 翻译 成 “ 唯 有 履 者 才能 
存 ” 可 能 更 好 ， 而 这 句 话 正 是 另 一 企业 家 任正非 的 名 言 ， 可 见 英 雄 通常 
所 见 略 同 。 


Robert Noyce 


Gordon Moore 


Andy Grove 


2。Altair 诞 生 


1974 年 ，MITS 公 司 的 创始 人 Edward Roberts (爱德华 .罗伯茨 ) 发 
明了 世界 上 第 一 台 个 人 计算 机 (Personal Computer，PC) ， 命 名 为 
Altair ( 牛 郎 星 ) 。 也 有 人 说 第 一 台 个 人 计算 机 应 该 是 1973 年 施乐 帕克 
研究 中 心 的 奥 托 (Alto) ， 其 实 很 难 找到 严格 意义 上 的 第 一 个 吃 螃蟹 
的 人 ， 因 为 大 家 对 螃蟹 的 定义 可 能 不 一 样 。 

Roberts 给 个 人 计算 机 定 了 这 样 的 概念 : 这 是 一 个 体积 小 、 价 钱 
低 、 可 以 摆 在 家 里 供 个 人 使 用 ， 而 不 是 以 往 在 人 们 印象 中 那 种 只 有 在 
实验 室 才能 见 到 的 、 昂 贵 的 、 需 要 多 人 操作 的 庞然大物 。 

Altair 计 算 机 获得 成 功 后 ，Roberts 的 生活 也 发 生 了 巨大 的 变化 ， 他 
每 天 不 得 不 伦 大 量 的 时 间 去 应 付 各 种 公司 和 媒体 ， 尽 管 产品 的 成 功 给 


他 带 来 了 可 观 的 收入 ， 但 他 认为 “这 样 的 生活 是 一 种 煎熬 ”，1977 年 ， 
他 毅然 将 公司 出 售 给 了 一 家 叫 Pertec 的 公司 ， 自 己 则 进 了 医学 院 ， 后 来 
成 了 一 名 医生 。 


Altair 的 成 功 虽 然 短 暂 ， 而 且 几 乎 没有 太 大 的 名 气 ， 但 是 它 却 影响 
了 后 来 成 名 的 3 家 公司 : Intel (Altair 计 算 机 采用 的 是 Intel 的 8080 处 理 
器 ) ， 微 软 ， 苹 果 。 


Edward Roberts 和 他 的 Altair 


3。 微 软 诞 生 


Altair 上 市 之 后 ， 哈 佛 大 学 二 年 级 法 律 系 学 生 比 尔 : 盖 泣 和 他 的 同 
学 保罗 . 艾 伦 立即 意识 到 个 人 计算 机 将 有 无 限 前 景 ， 于 是 自告奋勇 的 为 
Altair 开 发 软件 。 经 过 两 个 月 的 通宵 达旦 ， 他 们 成 功 开发 出 了 在 Altair 
上 的 BASIC 编 译 器 。3 个 月 后 ， 盖 茨 敏锐 地 察觉 到 : 计算 机 的 发 展 太 快 
了 ， 等 大 学 毕业 ， 他 可 能 就 失去 了 一 个 千 载 难 着 的 机 会 。 于 是 1975 年 6 
月 ， 盖 茨 放弃 了 这 所 世界 上 最 好 大 学 的 毕业 证 书 ， 毅 然 选择 了 退学 创 
业 ， 和 保罗 一 起 开创 了 微软 帝国 的 神话 。 


微软 初期 团队 
4. 苹果 诞生 


史 蒂 夫 .乔布斯 (Steve Jobs) 和 史 蒂 夫 : 沃 兹 尼 亚 克 (Steve 
Wozniak) 都 是 电子 技术 的 爱好 者 ， 他 们 经 常 参 加 家 酿 计 算 机 俱乐部 
(Homebrew Computer Club) 的 活动 ， 在 这 里 ， 他 们 看 到 了 Altair 计 算 
机 、8080 心 片 等 新 的 东西 并 深 受 启发 。1975 年 ， 沃 兹 用 MOS 
Technology 公 司 的 6502 心 片 制造 了 一 台 个 人 计算 机 ， 乔 布 斯 立即 意识 
到 这 个 小 巧 的 业余 机 器 有 着 巨大 的 商业 前 景 。1976 年 ， 乔 布 斯 说 服 沃 
兹 和 乔布斯 的 男 一 位 好 友 罗 恩 : 韦 恩 一 起 成 立 了 苹果 公司 ， 他 们 把 沃 兹 
设计 的 第 一 批 产 品 叫 做 “苹果 1 ”。1977 年 , “苹果 中 >” 上 市 ， 造 成 了 意 
想不到 的 又 动 ， 苹 果 成 为 个 人 计算 机 领域 最 成 功 的 计算 机 公司 ， 乔 布 
斯 也 被 《时 代 》 杂 志 刊 登 在 封面 ， 成 为 美国 人 心中 的 楷模 。 


史 蒂 夫 :乔布斯 ( 左 ) 和 史 蒂 夫 : 沃 兹 尼 亚 克 〈 右 ) 


5。IBM-PC 出 世 


到 了 这 个 时 候 ， 谁 都 知道 个 人 计算 机 市 场 是 个 巨大 的 金 矿 ， 计 算 
机 传统 巨头 IBM 当 然 也 不 例外 。IBM 也 曾 在 个 人 计算 机 领域 做 过 尝 
试 ， 但 是 并 不 成 功 。IBM 知 道 ， 如 果 还 不 能 在 个 人 计算 机 市 场 有 所 斩 
获 ， 自 己 这 个 老大 哥 就 要 在 新 时 代 面 前 丢人 现 眼 了 。 

1980 年 7 月 ，IBM 召 开 高 层 会 议 ， 要 对 如 火 如 茶 的 个 人 计算 机 浪潮 
做 出 反应 。 唐 : 埃 斯 特 里 奇 (Don Estridge) 受 任 于 败 军 之 际 ， 奉 命 于 
危难 之 间 ， 担 任 项 目 负责 人 ， 要 在 一 年 之 内 推出 IBM 的 PC 机 。 

Estridge 知 道 12 个 月 是 不 可 能 从 头 到 尾 完成 开发 的 ， 唯 一 的 出 路 的 
就 是 打破 传统 的 什么 都 做 的 策略 ， 尽 可 能 的 引入 已 经 存在 的 通用 部 
件 。 于 是 ，IBM 采 用 了 Intel 的 8088 处 理 器 ， 微 软 的 MS-DOS 操 作 系 统 ， 
开发 出 了 自己 的 个 人 计算 机 : IBM-PC。IBM 的 这 个 决定 直接 导致 了 微 
软 和 Intel 后 来 的 成 功 。 

IBM-PC 一 经 推出 ， 在 市 场 上 大 受 欢 迎 ， 随 之 成 为 “个 人 计算 机 ”的 
代名词 。IBM 的 这 种 PC 机 构思 设计 成 为 一 种 “开放 式 ” 的 体系 结构 ， 各 
个 部 件 模块 化 发 展 使 得 PC 机 得 以 迅速 发 展 ， 正 如 同 社会 分 工 促进 社会 


进步 一 样 ， 大 量 的 IBM-PC 的 克隆 产品 (IBM-PC 兼 容 机 ) 如 雨后春笋 
般 的 滋生 出 来 ， 使 得 PC 机 价格 一 泻 千里 ， 成 为 普通 群众 买 得 起 的 产 
品 。 

1986 年 ， 康 柏 率先 使 用 Intel 的 386 处 理 器 ， 迅 速 抢 占 了 市 场 ， 于 是 
IBM 从 PC 行业 老大 哥 的 位 置 上 落 了 下 来 ， 一 大 批 新 的 公司 成 长 起 来 。 


6. 图 形 用 户 界面 出 世 


20 世 纪 70 年 代 , “苹果 由 ”在 个 人 计算 机 市 场 引 发 了 一 场 革 命 ， 严 
重 挑战 了 IBM 老 大 哥 的 地 位 ，80 年 代 初 ，“IBM-PC” 引 发 了 另 一 场 革 
命 ，IBM 重 新 向 世界 宣告 : 我 才 是 计算 机 世界 的 老大 。 苹 果 公 司 面临 
空前 的 生存 危机 。 

为 了 拯救 苹果 于 危难 之 中 ，1983 年 ， 乔 布 斯 出 奇 招 ， 将 对 计算 机 
一 窍 不 通 的 美国 百事 可 乐 主管 销售 的 约翰 ,斯 卡 利 请 了 过 来 。 斯 卡 利 在 
70 年 代 领 导 了 一 场 享 誉 美国 的 商战 ， 硬 是 从 百年 老 店 可 口 可 乐 的 虎口 
中 夺 食 ， 抢 走 了 半壁 份额 。 斯 卡 利 成 名 已 久 ， 对 乔布斯 开始 并 不 感 
冒 ， 不 过 乔布斯 的 一 句 话 还 是 打动 了 斯 卡 利 :“ 你 是 想 一 辈子 卖 糖水 ， 
还 是 想 改 变 世 界 ? ” 

销售 技巧 是 锦上添花 ， 而 优质 的 产品 特性 才 是 制胜 关键。 乔布斯 
的 秘密 产品 特性 就 是 图 形 界面 。1979 年 12 月 ， 乔 布 斯 和 几 位 苹果 的 工 
旦 师 参 观 了 施乐 公司 (Xerox) 的 PRC 人 研究 中 心 (Xerox Palo Alto 
Research Center) ， 他 们 被 PARC 的 GUI (图 形 用 户 界 面 ) 深 深 的 吸引 
了 ， 回 来 后 ， 他 们 就 把 这 个 想法 做 到 了 自己 的 机 器 上 。1983 年 ， 苹 果 
推出 Lisa 电 脑 ， 但 是 由 于 成 本 太 高 ， 后 来 被 砍 掉 。1984 年 ，Macintosh 
诞生 了 。 伴 随 着 斯 卡 利 狂风 暴雨 般 的 宣传 攻势 ， 以 及 Macintosh 绚 丽 的 
用 户 界 面 ， 苹 果 又 一 次 打败 了 自己 的 老大 哥 一 一 IBM。 和 当时 的 
Macintosh 比 起 来 ，IBM-PC 只 能 用 土 得 掉 渣 来 形容 。 


Macintosh 电 脑 


为 他 人 做 嫁 衣 迷 的 施乐 PARC 
施乐 的 PARC 对 计算 机 领域 做 出 了 不 可 磨灭 的 贡献 ， 微 软 、 苹 果 等 公司 都 从 它 的 研究 成 
果 中 获 利 不 少 ， 不 过 ， 施 乐 自己 却 获 利 很 少 。 有 两 家 公司 的 成 立 和 PARC 有 直接 关系 。 
PostScript 用 一 种 公式 描述 字母 和 数字 ， 这 样 字体 在 放大 、 缩 小 和 打印 时 都 能 保持 同样 的 


清晰 度 。PostScript 技 术 由 两 名 PARC 的 研究 人 员 发 明 ， 两 名 发 明 者 后 来 得 到 了 风险 投资 ， 创 
办 了 自己 的 公司 ， 运 用 这 项 技术 创造 出 了 桌面 出 版 这 个 全 新 的 行业 ， 这 家 公司 的 名 字 就 是 
Adobeo 

在 PARC 工 作 的 Robert Metcalfe 发 明了 以 太 网 ， 他 随后 于 1979 年 创办 了 著名 的 3Com 公 
司 。 


7。 微 软 、Intel 双 双 晋 级 


微软 空手 套 白 狼 

IBM 在 研发 IBM-PC 时 ， 需 要 操作 系统 ， 比 尔 : 盖 洗 听 到 这 个 消息 
立即 就 去 找 IBM 公 司 ， 要 求 合 作 。IBM 本 来 想 使 用 一 个 叫做 CP/M 的 操 
作 系 统 ， 盖 葡 祭 出 免费 的 绝招 ， 拿 下 了 IBM。 盖 次 买 下 了 Tim Paterson 
的 QDOS 软 件 ， 在 其 帮助 下 改编 成 MS-DOS。 由 于 IBM-PC 兼 容 机 的 兴 
起 ，MS-DOS 得 以 大 卖 ， 历 史上 从 来 没有 哪个 软件 有 这 么 大 的 用 户 
数 ， 微 软 依托 MS-DOS 快 速 崛 起 。 后 来 Tim Paterson 投 奔 到 微软 门下 ， 


发 现 自己 设计 的 操作 系统 正 是 微软 的 金 矿 ， 不 茶 大 为 恼火 ， 不 过 此 时 
也 已 无 可 奈何 。 


微软 打败 苹果 


Macintosh 的 兴起 使 得 GUI; 深 入 人 人心。 由 于 苹果 坚持 不 与 1BM-PC 机 
兼容 ， 因 此 微软 决定 在 IBM-PC 上 开发 出 图 形 用 户 界 面 。1985 年 ， 微 软 
终于 完成 了 第 一 版 Windows 的 开发 ， 不 过 由 于 不 稳定 ， 缺 陷 多 ， 没 有 
获得 成 功 。 直 到 1990 年 ，Windows 3.0 才 为 微软 带 来 巨大 的 收益 。1995 
年 ，Windows 95 取 得 了 空前 的 成 功 ， 成 为 操作 系统 和 个 人 计算 机 发 展 
we 

微软 腾飞 的 这 几 年 ， 也 正 是 苹果 衰落 的 几 年 ， 苹 果 公 司 是 王 小 儿 
过 年 ， 一 年 不 如 一 年 。 苹 果 的 Mac OS 一 直 死 守 苹 果 计 算 机 市 场 ， 而 苹 
果 计 算 机 在 价格 、 应 用 程序 数量 上 远 不 如 IBM-PC 兼 容 机 ， 其 市 场 一 直 
在 下 滑 ， 最 终 逐 渐 豪 落 ， 只 能 守住 专业 市 场 。 其 间 ， 斯 卡 利 在 董事 会 
的 支持 下 ， 将 乔布斯 赶 出 了 由 他 自己 创办 的 公司 ， 后 来 又 几经 换 帅 ， 
还 是 无 法 挽救 败局 。 

期 间 ， 苹 果 也 采用 了 知识 产权 的 方式 来 抵制 微软 。 苹 果 将 微软 告 

上 法 庭 ， 指 责 windows 侵 犯 自己 的 操作 系统 。 在 法 庭 上 ， 微 软 的 盖 茨 
指出 苹果 的 窗口 式 图 形 界面 也 是 抄 施 乐 的 ， 赁 什么 你 能 去 施乐 拿 东 
西 ， 我 就 不 能 从 你 那 顺 东 西 。 最 后 ， 法 庭 还 是 以 Windows 和 苹果 的 操 
作 系 统 虽 然 长 得 像 ， 但 不 是 一 个 东西 为 由 ， 驳 回 了 苹果 的 要 求 。 

1992 年 ， 闭 名 作家 罗伯特 : 克 伦 格 利 正 式 将 微软 命名 为 “微软 帝 
国 "。 借 助 强大 的 市 场 优势 和 金钱 实力 ， 微 软 就 像 一 个 大 玲 鱼 ， 运 用 从 
任 我 行 那里 学 到 的 “ 吸 星 大 法 *”， 将 许多 公司 创造 的 技术 纳入 自己 的 
Windows 中 ， 使 其 成 为 一 个 无 所 不 能 、 无 所 不 包 的 百宝箱 。 0 
想 打 击 的 公司 ， 都 逃 不 出 它 的 魔掌 ， 如 Sun 人 公司、 网 景 公 司 等 。 一 
等 到 了 互联 网 时 代 ， 这 种 情况 才 有 所 好 转 。 

这 里 八卦 一 下 ， 微 软 树 敌 太 多 ， 法 律 纠纷 不 断 ， 不 过 一 直 没 有 给 
公司 造成 大 的 影响 ， 这 估计 和 盖 淡 的 法 律 背景 有 关系 。 盖 菊 在 哈佛 学 


的 就 是 法 律 专业 ， 盖 次 的 老 爸 在 退休 前 ， 是 Preston Gates & Ellis 律师 
事务 所 的 合伙 人 ， 这 家 律师 事务 所 后 来 更 名 为 K&L Gates， 是 全 美 十 
大 律师 事务 所 之 一 。 


Intel 打 败 Motorola 


摩托 罗拉 是 个 传奇 公司 ， 拥 有 大 公司 、 著 名 公司 、 杰 出 公司 之 类 
称号 的 公司 很 多 ， 不 过 拥有 传奇 公司 称号 的 公司 却 很 少 。 

摩托 罗拉 原名 加 尔 文 制造 公司 ， 创 立 于 1928 年 ， 由 创始 人 之 一 的 
保罗 .加尔 文 的 名 字 命 名 。 它 最 早 是 生产 汽车 里 的 收音 机 的 ， 摩 托 罗拉 
是 这 种 收音 机 的 品牌 ， 由 于 这 个 品牌 深入 人 心 ， 因 此 摩托 罗拉 干脆 将 
自己 公司 的 名 字 改 成 了 这 个 名 字 。 这 种 现象 其 实 不 多 ， 与 之 类 似 的 还 
有 一 家 公司 ， 那 就 是 松下 ，Panasonic 是 松下 在 日 本 国外 的 品牌 ， 后 来 
松下 将 公司 的 名 字 改 成 了 Panasonic。 

摩托 罗拉 除了 在 人 们 熟知 的 无 线 通 信和 领域 有 很 强 的 实力 外 ， 在 处 
理 器 领域 也 是 相当 的 有 竞争 力 。 在 前 几 代 处 理 器 中 ，Motorola 同 期 的 
产品 性 能 要 比 Intel 的 好 ，Macintosh 就 是 选用 Motorola 的 处 理 器 。 不 
过 ， 由 于 IBM 早 期 选择 了 Intel 的 处 理 器 ， 后 来 为 了 软件 的 兼容 性 ， 
IBM-PC 兼 容 机 都 采用 Intel 的 处 理 器 。 随 着 苹果 的 衰败 ，Motorola 的 通 
用 处 理 器 也 相继 衰败 。 苹 果 后 来 也 开始 采用 Intel 的 处 理 器 ，Motorola 
彻底 退出 了 通用 处 理 器 市 场 。 由 此 可 见 ， 一 开始 就 站 错 了 队 ， 对 后 面 
影响 有 多 大 啊 。 


8。.Wintel 联 盟 ， 一 统 江湖 


随 着 IBM-PC 兼 容 机 的 流行 ，IBM-PC 成 为 行业 标准 ， 不 过 ，IBM 
的 PC 机 却 受 到 了 巨大 的 冲击 ，IBM 在 PC 上 的 老大 位 置 后 来 也 被 惠普 给 
抢 走 了 。 到 后 来 ，PC 机 什么 人 都 可 以 装 ，PC 行 业 的 利润 率 也 逐年 下 
滑 ， 终 于 ，IBM 于 2004 年 底 将 PC 业务 卖 给 了 联想 。 


在 整个 PC 行业 ， 有 两 家 公司 的 地 位 是 无 法 替代 的 ， 一 家 是 微软 ; 
另 一 家 是 Intel。 计 算 机 的 发 展 已 经 进入 了 处 理 器 时 代 和 软件 时 代 ， 这 
个 时 代 的 主导 权 落 在 了 对 集成 电路 有 着 深刻 认识 的 Intel， 和 对 软件 有 
着 深刻 认识 的 微软 手中 。 计 算 机 的 本 质 ， 就 在 于 其 可 编程 ， 软 件 的 执 
行 需要 依赖 于 操作 系统 和 处 理 器 ，Intel 处 理 器 上 的 程序 不 能 在 ARM 中 
执行 ，Windows 的 程序 也 不 能 在 Linux 下 执行 ， 为 了 使 PC 上 以 前 的 程序 
能 继续 运行 ， 就 必须 使 用 微软 的 操作 系统 和 Intel 或 AMD (只 占 很 少 的 
份额 ) 的 处 理 器 。 

下 面 这 个 图 描述 了 应 用 程序 、 操 作 系统 、 处 理 器 的 依赖 关系 ， 应 
用 程序 依赖 于 操作 系统 和 处 理 器 ， 操 作 系统 依赖 于 处 理 器 。 
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程序 依赖 性 
桌面 操作 系统 和 桌面 处 理 器 是 两 个 相互 配合 并 且 极 欠 竞 争 的 领 
域 ，Microsoft 和 Intel 由 此 获得 高 额 利 润 ， 它 们 同时 也 是 欧美 反 垄 断 法 
的 宠儿 。 
Wintel 联 盟 就 是 Windows 和 Intel 的 联盟 ， 这 个 联盟 在 业界 还 有 一 个 
定律 ， 叫 做 安 迪 :比尔 定律 :“Wwhat andy gives，Pbill takes away.” 无 论 安 
迪 给 什么 ， 比 尔 都 会 把 它 拿 走 。 


安 迪 就 是 Intel 的 前 CEO 安 迪 : 格 鲁 夫 ， 比 尔 就 是 微软 的 比尔 : 盖 菊 ， 
作为 商业 同盟 ， 他 们 每 年 会 晤 两 三 次 〈 引 自 格 鲁 夫 的 《只 有 偏执 狂 才 
能 生存 》) 。 用 电脑 的 人 都 会 有 这 样 的 感觉 : 电脑 买 来 没 多 久 ， 就 会 
发 现 慢 如 映 牛 ， 又 要 考虑 硬件 升级 了 。 现 在 的 CPU 越 做 越 快 ， 存 储 越 
做 越 大 ， 但 是 操作 系统 、 应 用 软件 却 是 越 做 越 慢 ， 越 做 越 大 。 说 白 
了 ， 丙 家 喜欢 消耗 品 ， 不 喜欢 耐用 品 。 

不 过 我 们 也 不 能 完全 把 矛头 指向 软件 公司 ， 现 在 软件 的 功能 需 
越 来 越 多 ， 为 了 节约 软件 开发 的 时 间 和 成 本 ， 编 程 语言 越 做 越 高 级 ， 
对 应 着 效率 也 自然 越 来 越 低 。 


9。Wintel 联 盟 真 的 无 坚 不 挫 吗 ? 


Wintel 联 盟 统治 PC 江湖 相当 之 久 ， 很 多 处 理 器 公司 和 软件 公司 分 
别 向 Intel 和 微软 发 起 了 一 轮 又 一 轮 的 攻击 ， 不 过 都 是 败 多 胜 少 ， 直 到 
最 近 几 年 ， 情 况 才 有 所 好 转 。 

比较 有 名 的 一 家 挑战 公司 是 Sun 公 司 ，Sun 也 是 一 家 传奇 公司 ， 在 
见 盛 时 期 ，Sun 一 家 公司 的 产品 包含 了 整 条 IT 产业 链 : 从 处 理 器 ， 到 计 
算 机 ， 到 网 络 ， 到 操作 系统 ， 到 编程 语言 ， 到 应 用 软件 一 条 龙 服务 ， 
外 加 股价 高 得 吓人 ， 颇 有 和 气 吞 山河 之 势 。Sun 很 早 就 提出 了 “网 络 就 是 
计算 机 ”的 概念 ， 这 也 正 是 现在 火热 的 云 计 算 的 思想 。Sun 挑 战 Wintel 
联盟 的 一 大 利器 就 是 大 名 见 易 的 Java。 


Java 虚 拟 机 
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Java 程 序 依赖 性 

Java 语 言 的 出 现 打 破 了 江湖 上 持续 了 很 长 时 间 的 平静 ，Java 应 用 
程序 通过 Java 虚 拟 机 和 操作 系统 、 处 理 器 分 离开 来 ， 使 用 Java 编 写 的 
应 用 程序 不 再 依赖 于 某 个 具体 的 操作 系统 和 处 理 器 ，Java 程 序 不 只 5 
在 x86 上 运行 ， 也 可 以 在 ARM 等 处 理 器 上 运行 ， 只 要 装 一 个 这 一 平台 
上 的 虚拟 机 就 可 以 了 ， 这 样 用 户 对 微软 的 操作 系统 和 Intel 的 处 理 器 就 
没有 依赖 性 了 。Java 也 迅速 成 为 当前 的 主流 编程 语言 ， 虽 然 Java 是 如 
此 的 流行 ， 但 是 Sun 一 直 没 找到 通过 它 僵 利 的 方法 。 随 着 x86 处 理 器 性 
能 的 逐渐 提升 ，Sun 赖 以 生存 的 工作 站 逐渐 被 淘汰 ，Sun 公 司 一 路 不 
振 ， 被 Oracle 买 去 。 

互联 网 的 发 展 ， 将 各 种 应 用 都 搬 到 了 网 上 ， 浏 览 器 逐渐 成 为 继 操 
作 系 统 之 外 的 又 一 大 用 户 窗 口 。Google 等 公司 大 力 开 发 基于 互联 网 的 
服务 《软件 即 服务 ) ， 来 为 未 来 屏 洲 操作 系统 做 铺垫 。 到 现在 ， 人 们 
在 计算 机 上 使 用 的 大 部 分 功能 都 能 在 浏览 器 上 完成 。 例 如 ， 可 以 在 浏 
览 器 上 写作 、 看 电影 、 听 歌 、 玩 游戏 ...... 网 景 联合 创始 人 马克 :安德森 


(Marc Andreessen) 有 名 名言 : 在 互联 网 的 光芒 下 ， 操 作 系统 只 不 过 
是 一 套 漏洞 重重 的 设备 驱动 器 。 
不 管 是 x86 十 Windows 的 PC 机 ， 还 是 ARM 十 Linux 的 上 网 本 ， 又 或 
是 ARM 十 Symbian/Android 的 手机 ， 都 可 以 使 用 相同 的 服务 ， 网 络 服务 
对 处 理 器 和 操作 系统 的 依赖 性 也 越 来 越 小 。 


网 络 服 务 的 依赖 性 


目前 手机 上 最 火 的 操作 系统 当 属 Google 的 Android，Google 收 购 了 
一 个 做 Linux 的 团队 ， 从 而 改造 成 自己 的 Android。 由 于 Android 使 用 
Java 语 言 进 行 应 用 软件 开发 ， 因 此 使 得 应 用 软件 具有 更 好 的 可 移植 
性 ， 处 理 器 不 管 是 x86、ARM、MIPS 等 , 均 可 以 执行 Android 应 用 程 
序 ，Android 操 作 系 统 也 因此 大 受 处 理 器 厂商 和 应 用 软件 厂商 的 欢迎 。 
而 处 理 器 领域 ， 最 近 风 头 正 盛 的 是 ARM， 微 软 的 桌面 操作 系统 也 提供 
了 对 ARM 的 支持 。 


1.1.4 手机 一 一 装 在 口袋 的 计算 机 


1. 分 不 清 的 界限 


以 前 人 们 会 问 :“ 你 家 里 有 计算 机 没 ? ” 

现在 这 样 问 就 out 了 ， 应 该 问 :“ 你 口袋 里 有 几 个 计算 机 呀 ? ” 

现在 其 实 已 经 很 难 区 分 手机 和 计算 机 有 什么 区 别 了 ， 对 于 很 多 手 
机 来 说 ，PC 机 能 做 的 ， 它 能 做 ，PC 机 不 能 做 的 ， 它 也 能 做 ， 高 端 手机 
的 性 能 已 经 不 亚 于 当年 的 奔 3、 赛 扬 了 。 

下 面 这 张 图 描述 了 各 种 各 样 的 终端 ， 可 能 他 们 之 间 的 区 别 就 在 于 
大 小 了 。 

性 能 更 高 屏幕 更 大 


| 桌面 计算 机 


更 便携 ” 功 耗 更 低 


各 种 各 样 的 终端 
桌面 计算 机 : 一 人 台 体 验 卓越 ， 为 所 欲 为 的 电脑 
笔记 本 : 一 台 便 于 移动 ， 性 能 较 强 的 电脑 
上 网 本 : 一 台 便 于 移动 ， 价 格 较 低 的 电脑 
手机 : 一 台 随 身 携带 ， 永 远 在 线 的 电脑 


2. 大 哥 大 


一 身 风 衣 ， 一 队 马 仔 ， 加 上 一 个 大 哥 大 ， 是 20 世 纪 90 年 代 港 剧 中 
大 哥 的 经 典 造 型 。 


大 哥 大 


大 哥 大 是 第 一 代 移 动 通信 系统 的 终端 设备 ， 几 乎 被 摩托 罗拉 公司 


垄断 。 
3。 手 机 


诺基亚 以 小 博大 


20 世 纪 70 年 代 后 ， 随 着 数字 信号 处 理 技术 和 半导体 技术 的 发 展 ， 
基于 数字 电路 和 信号 处 理 的 第 二 代 移 动 通信 渐渐 浮 出 了 水 面 。 为 了 在 
第 二 代 移 动 通信 中 能 够 赶 超 美国 ， 早 在 1982 年 ， 欧 洲 邮 电 管 理 委 员 会 

( European Conference of Postal and Telecommunications 
Administrations) 就 着 手 制 定 新 一 代 的 移动 通信 标准 Groupe Special 
Mobile， 简 称 GSM。 第 一 个 投入 商业 运行 的 GSM 移 动 通信 网络 ， 其 局 


端 设备 供应 商 是 瑞典 的 爱立信 ， 终 端 设备 的 供应 商 是 分 兰 的 诺基亚 ， 
手机 是 这 个 时 代 的 主要 通信 终端 。 

在 模拟 时 代 ， 话 音质 量 是 手机 好 坏 几 乎 唯一 的 标准 ， 摩 托 罗拉 无 
疑 在 此 方面 占有 优势 。 而 到 了 数字 时 代 ， 不 同 手机 的 话音 质量 相差 不 
像 以 前 那么 大 ， 此 时 手机 的 功能 就 变 得 非常 重要 了 ， 表 到 后 来 手机 的 
外 观 也 变 得 重要 起 来 。 摩 托 罗拉 由 于 思维 的 定式 ， 在 早期 开发 数字 手 
机 时 ， 仍 然 以 话音 质量 为 核心 ， 功 能 和 外 观 的 设计 在 同行 中 常常 慢 一 
个 节拍 。 而 诺基亚 、 三 星 等 手机 很 早 就 强调 手机 的 功能 、 使 用 方便 和 
外 观 ， 自 然 也 就 超越 了 摩托 罗拉 。 

电话 
媒体 播放 机 
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手机 ， 一 把 电子 瑞士 军刀 
iPhone 与 移动 互联 网 


乔布斯 的 故事 还 在 继续 。 

乔布斯 是 硅谷 最 传奇 的 一 位 。 年 轻 的 乔布斯 行为 偏激 ， 根 本 是 一 
个 不 能 与 之 共事 的 人 ， 他 被 目 己 请 来 的 斯 卡 利 在 董事 会 的 支持 下 赶 出 
了 苹果 。 

乔布斯 离开 苹果 后 ， 创 立 了 一 家 计算 机 公司 NeXT， 不 过 没有 翻 起 
大 浪 。 之 后 ， 乔 布 斯 买 下 了 好 莱 坞 著名 导演 、 制 片 人 乔治 - 户 卡 斯 ( 导 
演 过 《星球 大 战 》) 的 动画 制作 组 ， 并 将 其 命名 为 Pixar 《皮克斯 ) 公 


司 ， 皮 克 斯 公司 后 来 制作 了 一 系列 经 典 的 动画 片 ， 如 《玩具 总 动 
员 》、《 机 器 人 总 动员 》 等 ， 皮 克 斯 上 市 后 ， 乔 布 斯 赚 到 的 钱 比 从 苹 
果 得 到 的 还 多 。 

这 个 时 候 的 苹果 已 经 是 摇 揪 欲 验 ， 几 任 CEO 都 无 力 回 天 ， 没 办 
法 ， 董 事 会 只 得 把 乔布斯 请 回来 ， 死 马 当 活 马 医 。 被 资方 赶 出 公司 的 
创始 人 不 少 ， 但 是 又 被 请 回来 的 ， 就 几乎 没有 了 ， 不 过 乔布斯 还 是 回 
来 的 ， 因 为 苹果 就 像 他 的 孩子 一 样 。 

回 到 苹果 的 乔布斯 历经 沧桑 ， 也 更 成 熟 。 乔 布 斯 的 回归 重新 燃烧 
了 苹果 的 创新 小 宇宙 。 苹 果 凭 借 着 iPod、iTunes、iPhone、App Store 等 
一 系列 产品 和 商业 模式 创新 ， 又 一 次 站 了 起 来 ， 而 且 站 得 更 高 。 

iPhone 是 手机 的 经 典 之 作 ， 在 iPhone 出 现 之 前 ， 从 来 没有 人 想 
过 ， 原 来 手机 还 可 以 这 样 玩 。iPhone 之 火 ， 不 需要 多 说 ， 就 连 释 道 心 
和 尚 也 使 用 iPhone。 

iPhone 模 糊 了 手机 和 计算 机 的 界限 ， 并 引发 了 移动 互联 网 之 热 ， 
继 苹 果 的 App Store 之 后 ，Google、 诺 基 亚 、 中 移动 等 大 的 手机 厂商 、 
言 息 服 务 商 也 都 提供 了 自己 的 网 上 商店 。 


4. 山寨 机 


某 日 部 门 开 会 ， 领 导 在 上 面 吐 沫 横 《， 轻 舞 飞 扬 ， 我 们 在 下 面 正 
襟 危 坐 ， 展 现 出 移 情 式 倾听 的 样子 。 突 然 ， 一 兄弟 的 手机 爆 响 :“ 死 了 
都 要 爱 ， 不 淋漓 尽 致 不 痛快 .……” 巨 大 的 声响 直 压 领导 的 麦克 风 ， 引 来 
大 家 一 阵 狂 笑 ， 从 此 以 后 ， 这 位 兄弟 再 也 不 敢 用 山寨 低音 炮 手机 了 。 
山寨 机 创意 一 : 明 修 栈道 ， 暗 度 陈仓 

凌 凌 漆 :“ 你 看 到 我 手 上 拿 的 这 个 东西 了 吧 ， 表 面 上 看 它 是 一 个 大 
哥 大 电话 ， 但 是 你 看 这 里 有 一 层 金 属 网 膜 ， 实际 上 ， 它 是 一 个 刊 胡 
刀 ， 这 样 在 执行 任务 的 时 候 ， 也 可 以 神 不 知 鬼 不 觉 地 刮 明子 。 至 于 这 
个 表面 上 看 是 一 个 刊 胡 刀 ， 其 实 呢 ， 它 是 一 个 吹风 机 。” 


这 段 经 典 的 台词 用 来 描述 山寨 机 的 创意 那 是 相当 的 合适 。 


哥 表面 上 是 跑车 ， 实 际 上 是 个 手机 
山寨 机 创意 二 : 要 么 不 做 ， 要 么 做 绝 


aa 1 
超 雷 人 的 喇叭 ， 绝 对 让 你 惊天 动 地 

山寨 机 的 功能 通常 比较 夸张 ， 像 足 了 无 厘 头 的 风格 ， 不 过 如 果 说 
山寨 机 的 功能 只 是 个 嗪 头 ， 那 也 不 见得 ， 黑 格 尔 说 过 : “存在 就 是 合理 
的 ”， 这 些 山寨 机 在 某 些 场合 还 真是 能 起 上 大 用 途 ， 如 在 钢铁 三 工作 ， 
环境 非常 吵 ， 一 般 的 手机 铃声 根本 就 听 不 见 ， 这 时 配 上 上 面 这 款 手 
机 ， 就 是 拉 风 与 实在 并 存 了 。 


山寨 机 创意 三 : 包罗 万 象 


达 闻 西 :“ 我 费 了 一 生 经 历 集 合 了 十 种 杀人 武器 于 一 身 一 一 要 你 命 
三 千 ! 西瓜 刀 、 单 车 链 、 火 药 、 硫 酸 、 毒 欧 、 手 枪 、 手 榴弹 、 杀 虫 
剂 ， 每 样 都 能 独当一面 ， 现 在 集中 在 一 起 ， 看 你 怕 不 怕 。” 

集成 很 多 意 想不到 的 功能 ， 也 是 山寨 机 常 有 的 创意 ， 如 专 为 压 寨 
夫人 (喜欢 山寨 机 的 女士 ) 设计 的 功能 : 

防 狼 器 ， 天 线 能 在 瞬间 释放 强 电流 〈 慎 用 ， 慎 用 ， 可 不 能 把 灰 太 
狠 当 成 大 灰 狠 了 ) 。 

化 妆 镜 ， 凌 凌 漆 说 过 :“ 作 为 一 名 情报 工作 者 ， 形 象 很 重要 。” 作 
为 一 名 女士 ， 形 象 也 很 重要 ， 化 妆 镜 手机 ， 让 你 神 不 知 鬼 不 觉 的 化 
妆 ， 实 在 是 居家 旅行 之 必 备 良机 。 


点 烟 的 手机 


验 钞 机 手机 
大 腕 .山寨 机 版 ( 引 自 网 络 ) : 

一 定 得 选 最 好 的 硬件 心 片 

雇 法 国 设计 师 

做 就 得 做 最 高 档 的 手机 

平台 直接 用 MTK 
屏幕 最 小 也 得 3.0 的 

什么 智能 呀 ， 电 视 功能 呀 ， 双 卡 同 时 待机 呀 
能 给 它 装 的 全 给 它 装 上 

前 面 一 个 摄像 头 

后 面 一 个 摄像 头 


手机 一 开机 

雨 管 有 事 儿 没事 儿 都 得 跟 您 说 
“ 呼 事 啊 ? ” 

一 口 地 道 的 广东 普通 话 
倍 儿 有 面子 

手机 里 再 建 一 块 读 卡 器 
卡 用 索尼 的 


一 个 G 融 几 十 块 


再 装 一 特大 电池 

365 天 待机 

就 是 一 个 字 儿 

夹 

接 个 电话 就 得 说 它 一 个 小 时 才 行 
周围 的 人 不 是 金立 就 是 CECT 
您 要 是 拿 一 外 国 机 器 

都 不 好 意思 跟 人 打招呼 

您 说 这 样 的 手机 

一 部 得 卖 多 少 钱 ? 

我 觉得 怎么 着 也 得 两 千 块 钱 吧 。 
两 干 块 ? 你 打动 啊 ? 

一 千 块 起 

您 别 嫌 便 宜 

还 必须 打折 

你 得 研究 客户 的 购物 心理 

买 手机 连 一 千 块 钱 都 不 愿意 掏 的 主 儿 
根本 不 怕 你 便宜 

什么 叫 现代 人 士 你 知道 吗 ? 
现代 人 士 就 是 买 东西 就 买 最 便宜 的 
不 买 最 好 的 

所 以 我 们 做 手机 的 口号 就 是 
“不 但 要 好 ， 还 要 便宜 ! ” 


1.1.5 无 处 不 在 的 计算 机 


Ew 和 奔 跑 中 的 计算 机 | 
a 


EF 


f 
装 口 袋 里 的 计算 机 LS 计算 机 or 机 硕 人 ? 


计算 机 无 处 不 在 

随 着 集成 电路 的 发 展 ， 计 算 机 的 核心 硬件 已 经 被 集成 在 一 块 必 片 
上 ， 这 块 心 片 就 是 处 理 器 。 基 本 上 来 说 ， 只 要 是 含有 处 理 器 的 设备 ， 
通过 编程 实现 各 种 功能 的 ， 我 们 都 可 以 看 成 是 计算 机 。 

汽车 是 机 械 和 电子 的 混合 物 ， 含 有 大 量 的 处 理 器 ， 越 是 高 档 的 汽 
车 ， 含 有 的 处 理 器 也 越 多 ， 汽 车 也 被 称 为 奔跑 中 的 计算 机 。 

游戏 机 、 机 项 盒 等 设备 ， 从 以 前 单独 的 功能 ， 逐 步 过 渡 到 现在 全 
能 型 的 ， 既 能 玩 游戏 ， 又 能 看 电影 ， 又 能 上 网 ， 健 然 就 是 一 台 计 算 
机 。 


1.1.6 ”计算 机 的 来 世 


玩 游 戏 的 计算 机 


这 个 世界 没有 超人 ， 只 有 科技 。 
《未 来 警察 》 人 台词 


旧时 王 谢 堂前 燕 ， 飞 入 寻常 百姓 家 。 
一 一 刘表 锡 


一 个 民族 有 一 些 关 注 天 空 的 人 ， 他 们 才 有 希望 。 
一 一 黑 格 尔 


影视 作品 来 产 于 生活 ， 也 同时 表现 生活 。 在 好 莱 坞 的 科幻 电影 
计算 机 (Computer) 和 机 器 人 (Robot) 实际 上 是 个 等 义 词 ， 如 


《终结 者 》 系 列 。 

人 工 智能 让 计算 机 更 像 人 ， 于 是 也 就 产生 了 机 器 人 。 埃 斯 特 罗 . 特 
勒 说 ,“ 人 工 智 能 是 一 门 新 兴 的 学 科 ， 所 研究 的 是 如 何 使 机 器 能 够 做 像 
它 在 电影 中 所 做 的 事情 。 ”说白 了 ， 也 就 是 让 计算 机 能 像 人 一 样 能 听 、 


能 说 、 能 看 、 能 思考 .……. 


《终结 者 》 剧 照 
人 和 机 器 人 人， 大脑 和 计算 机 ， 其 实 也 比较 类 似 ， 下 面 是 它们 的 类 


生物 体 和 机 器 的 对 比 
外 界 刺 激 经 过 人 体 的 感觉 器 官 进入 大 脑 进行 分 析 ， 然 后 大 脑 控制 
关节 和 肌肉 执行 相应 的 动作 。 对 于 机 器 来 说 ， 机 器 的 大 脑 就 是 计算 
机 ， 机 器 的 感觉 器 官 就 是 传感器 ， 机 器 的 执行 器 官 就 是 执行 器 。 
日 本 的 机 器 人 研究 一 直 处 于 世界 前 列 ， 日 本 很 多 大 公司 都 将 机 器 
人 作为 未 来 的 战略 重点 。 日 本 人 有 着 强烈 的 机 器 人 情结 ，1963 年 ， 由 


手 哉 治虫 制作 的 动画 《 铁 壁 阿 鞋 木 》 开 始 在 电视 台 放 映 ， 这 是 日 本 第 
一 部 机 器 人 动漫 ， 这 部 动漫 影响 了 几 代 日 本 人 ， 也 奠定 了 日 本 的 机 器 
人 情结 。 再 加 上 日 本 资源 匮乏 ， 社 会 老龄 化 现象 严重 ， 从 经 济 的 角度 
考虑 ， 也 对 机 器 人 有 着 强烈 的 依赖 。 

机 器 人 的 研发 任 重 而 道 远 ，2011 年 日 本 因 地 震 而 导致 的 核电 站 核 
泄漏 ， 如 果 有 机 器 人 去 修理 ， 就 不 会 让 核 辐射 扩散 得 这 么 严重 。 


作者 在 日 本 京都 铁路 口 拍摄 的 阿 童 木 像 
计算 机 历史 总 结 : 

长 江 后 滔 推 前 浸 ， 一 代 新 人 胜 旧 人 。 

江山 代 有 才 人 出 ， 各 领 风 骚 三 五 年 。 

每 一 次 时 代 的 变革 ， 总 是 新 公司 胜出 ， 那 些 拥 有 强大 的 研发 实 
力 、 具 有 强大 的 资金 支持 的 传统 大 公司 反而 反应 迟钝 ， 坐 失 良 机 。“ 利 
令 智 红 " 绝 对 不 是 用 来 形容 蠢 材 的 ， 在 大 公司 说 话 比较 硬朗 的 人 都 是 当 
前 时 代 的 既得 利益 者 ， 他 们 当年 也 非常 有 远见 ， 不 过 现在 ， 他 们 从 内 
心里 不 愿意 改变 当下 的 状态 ， 对 变化 反应 不 够 坚决 ， 时 间 判 断 灌 后 ， 
于 是 终于 被 新 时 代 所 抛弃 。 


1.2 ”计算 机 分 门 别 类 


物 以 类 聚 ， 人 以 群 分 


不 分 类 ， 就 不 利于 管理 ， 人 类 由 于 具有 归 类 的 能 力 ， 才 不 会 被 周 
围 环境 的 复杂 性 所 讨 垮 。 根 据 计 算 机 的 应 用 ， 能 将 计算 机 分 成 3 个 类 
别 |: 

1. 服务 器 

2. PC 机 (Personal Computer， 个 人 计算 机 ) ， 也 就 是 我 们 俗称 的 
电脑 

3. 岩 入 式 计算 机 


计算 机 


Client 


PC 机 


计算 机 大 家 庭 


我 们 使 用 Google 的 搜索 引擎 时 ， 搜 索 过 程 是 在 Google 的 服务 器 上 
完成 的 ， 再 将 结果 反馈 给 我 们 的 PC 机 ， 这 就 是 一 种 Client/Server 应 
用 。 

PC 机 和 服务 器 从 本 质 上 没有 多 少 不 同 ， 根 据 应 用 的 不 同 ， 部 件 和 
性 能 会 略 有 区 别 。 家 用 的 PC 机 ， 最 常用 的 功能 就 是 看 电影 和 玩 游戏 ， 
因此 多 媒体 部 件 ， 如 显卡 、 显 示 器 、 音 箱 等 会 比较 齐全 ， 服 务 器 要 给 
很 多 的 用 户 提供 服务 ， 通 常会 有 这 些 特点 : 

(1) 高 可 靠 性 ， 少 出 故障 ，7x24 小 时 业务 不 中 断 。 
(2) 高 可 扩展 性 ， 随 着 用 户 数 的 增加 ， 服 务 器 也 能 进行 相应 的 扩 
展 ， 如 增加 硬盘 、 增 加 内 存 等 。 


(3) 高 吞吐 量 ， 一 台 服 务 器 通 单 要 为 多 个 用 户 进 行 服 务 ， 单 位 时 
间 内 能 处 理 的 请 求 数目 代表 了 服务 器 的 性 能 。 

能 入 式 计 算 机 专注 于 某 个 特定 的 领域 ， 如 通信 、 工 业 控 制 等 ， 形 
态 也 千差万别 。 不 同 的 领域 有 不 同 的 需求 ， 总 体 来 说 ， 低 功 耗 、 低 成 
本 是 必须 的 。 有 些 领域 对 可 靠 性 要 求 非常 高 (如 军事 、 安 全 等 领 
域 ;， 而 有 些 领 域 对 功 耗 要 求 非常 高 (如 手机 等 ) 。 

在 性 能 方面 ， 一 般 看 来 ， 服 务 器 性 能 要 比 PC 机 强 ，PC 机 的 性 能 
比 一 般 的 能 入 式 计 算 机 强 ， 不 过 它们 并 没有 太 严 格 的 界限 。 计 算 机 的 
性 能 一 直 都 在 飞速 发 展 ， 几 年 前 好 几 箱 服务 器 做 的 工作 今天 一 台 PC 机 
就 可 以 完成 ， 现 在 的 手机 的 性 能 也 不 亚 于 几 年 前 的 PC 机 。 昨 天 的 服务 
器 ， 就 是 今天 的 PC 机 ， 也 是 明天 的 能 入 式 计 算 机 。 


昨天 


服务 器 、PC 机 、 窜 入 式 计算 机 的 关系 


1.3 PC 机 结构 探秘 


当 我 们 把 计算 机 和 人 做 类 比 时 ， 硬 件 就 相当 于 人 的 身体 ， 软 件 就 
相当 于 人 的 三 魂 七 鲍 《中 国 古 代 的 说 法 ) ， 或 者 灵魂 (西方 宗教 的 说 
法 ) ， 或 者 思维 (现代 的 说 法 ) 。 

同人 一 样 ， 计 算 机 也 是 由 很 多 部 分 组 成 ， 我 们 先 来 解剖 一 部 PC 
机 ， 看 看 它 的 内 部 构造 ， 以 及 各 部 分 之 间 的 连接 方式 ， 下 页 图 是 某 PC 
机 的 解剖 图 。 


下 面 我 们 来 分 别 介 绍 。 
1.3.1 ”处理 器 一 一 一 颗 奔 腾 的 心 


计算 机 所 完成 的 任务 是 靠 一 条 一 条 的 指令 来 完成 的 ， 指 令 就 在 处 
理 器 中 执行 ， 计 算 机 其 他 的 各 个 部 分 都 是 为 了 配合 处 理 器 而 存在 的 。 
处 理 器 也 称 CPU (Central Processing Unit， 中 央 处 理 器 ) ， 所 有 从 外 部 
输入 的 命令 ， 都 是 在 处 理 器 里 面 进行 处 理 的 ， 所 有 我 们 看 到 的 文字 、 
声音 、 图 像 ， 都 是 经 处 理 器 处 理 过 后 ， 再 表现 出 来 的 。 


内 存 总 线 内 存 条 


hb 
“EE 


蘑 容 传统 PCI 设 备 


尼 他 扩 卡 


PC 机 结构 图 
Intel 的 Marcian E. Hoff (也 称 为 Ted Hoff) 做 出 了 世界 上 第 一 款 处 
理 器 4004， 它 由 2300 个 晶体 管 组 成 ， 运 行 在 108KHz， 位 宽 4bit。 Hoff 
也 因此 于 1988 年 获得 计算 机 先驱 奖 。 


酷似 星 蛤 的 4004 
从 1991 年 开始 ，Intel 开 展 了 一 项 大 型 的 商业 推广 计划 ， 铺 天 盖 地 
的 “Intel Inside” 广 告 让 人 们 逐渐 觉得 处 理 器 就 是 计算 机 的 代名词 ， 在 那 
个 时 候 ， 当 一 个 人 有 了 一 台电 脑 ， 他 会 对 别人 说 ， 我 有 一 台 奔 3 电脑 或 
奔 4 电 脑 ， 而 不 会 说 我 有 一 台 IBM 电 脑 或 惠普 电脑 。 现 在 ， 随 着 处 理 器 
品 脾 太 杂 ， 人 们 反而 不 再 说 我 有 一 台 酷 豁 电 脑 或 奔腾 电脑 了 ， 不 过 
“Intel Inside” 的 广告 标签 还 是 在 电脑 上 醒目 可 见 。 


1.3.2 ”存储 器 一 一 大 肚 能 容 ， 容 天 下 难 容 之 事 


1. 存储 器 技术 


人 脑 可 以 既 做 运算 ， 又 存储 数据 ， 而 在 计算 机 中 ， 计 算 由 处 理 器 
完成 ， 数 据 存储 ， 则 由 存储 器 完成 。 
下 图 是 计算 机 的 存储 结构 : 


网 络 人 存储 


SD 卡 


存储 单元 的 层次 结构 

CPU 在 做 计算 时 ， 是 从 寄存 器 中 读数 据 的 ， 不 过 寄存 器 的 容量 实 
在 是 太 小 ， 几 乎 无 时 无 刻 不 需 要 从 内 存 中 读 取 数 据 ， 为 了 减少 从 内 存 
中 读 写 数据 的 次 数 ， 在 CPU 内 部 做 了 一 个 缓存 (cache) ， 避 免 频繁 读 
写 。 

内 存 的 记忆 力 昌 好 但 是 记得 的 事情 也 还 不 多 ， 最 重要 的 一 点 是 ， 
内 存 睡 一 觉 〈 掉 电 后 ) 什么 东西 都 所 了 ， 属 于 易 失 性 存储 介质 。 所 以 
数据 都 要 存储 在 一 个 容量 大 ， 且 永久 存储 的 设备 上 ， 这 个 设备 就 是 硬 
盘 。 还 是 硬盘 好 ， 默 默 无 闻 的 工作 ， 什 么 都 默默 的 记 下 ， 掉 电 了 也 不 
会 丢失 数据 ， 不 过 由 于 速度 较 慢 ， 如 果 直 接 和 处 理 器 打交道 ， 那 处 理 
器 就 要 等 到 黄花 菜 都 谅 了 。 从 这 个 角度 来 说 ， 内 存 是 处 理 器 和 硬盘 之 
间 的 缓存 。 

对 于 计算 机 来 说 ，CPU 是 核心 ， 不 过 对 于 人 们 来 说 ， 硬 盘 才 是 核 
心 ， 因 为 所 有 的 数字 信息 都 记录 在 上 面 ， 其 他 的 器 件 随便 更 换 都 没有 
关系， 但 硬盘 却 不 能 随便 更 换 ， 起 码 是 不 能 让 别人 随便 更 换 。 网 络 上 
有 句 名言:“ 男 人 一 定 要 会 修 电脑 ， 曾 经 有 个 人 不 会 修 自己 的 电脑 ， 后 
来 的 事 大 家 都 知道 了 .……” 

硬盘 空间 虽 大 ， 但 是 在 这 个 信息 爆炸 的 年 代 ， 什 么 信息 都 存放 在 
本 地 硬盘 是 不 可 能 的 ， 还 好 互联 网 的 发 展 使 得 我 们 可 以 轻松 的 访问 网 


络 ， 获 取 想 要 的 信息 。 大 量 的 信息 存储 在 网 络 上 其 他 计算 机 的 硬盘 
上 ， 我 们 只 需要 将 别人 的 数据 传输 过 来 就 可 以 了 ， 所 以 说 传输 和 存 
储 ， 本 身 就 是 一 体 的 ， 存 储 是 信息 在 时 间 上 的 传递 ， 传 输 是 信息 在 空 
间 上 的 传递 。 

硬盘 安 在 电 脑 上 ， 是 不 能 随便 移动 的 ， 不 同 的 电脑 间 要 交换 点 数 
据 ， 在 不 方便 使 用 网 络 的 条 件 下 ， 就 需要 可 移动 的 存储 介质 ， 如 光 
盘 、U 盘 、SD 卡 等 。 

光 、 电 、 磁 等 特性 可 以 作为 存储 介质 ， 光 盘 使 用 光 特 性 ， 内 存 和 
U 盘 使 用 电 特 性 ， 现 在 硬盘 的 存储 介质 还 是 以 磁盘 为 主 ， 使 用 磁 特 
性 。 磁 盘 先 驱 者 之 一 Al Hoagland 曾 经 调侃 到 : “我 认为 ， 硅 谷 的 名 字 
叫 错 了 ， 如 果 你 回顾 近 十 年 来 产品 的 收入 情况 ， 磁 盘 比 硅 产 品 收 入 要 
多 得 多 ， 因 此 应 该 把 这 个 地 方 改 名 为 氧化 铁 谷 。” 不 过 ， 现 在 随 着 闪存 
容量 的 不 断 加 大 ， 也 有 慢 慢 替代 磁盘 的 趋势 ， 闪 存 完全 采用 电 的 访问 
方式 ， 比 磁盘 机 械 的 访问 方式 要 快 很 多 。 手 机 、 摄 像 机 等 消费 类 电子 
产品 中 已 经 集成 了 中 等 容量 的 闪存 。 当 然 ， 单 位 容量 下 闪存 的 成 本 还 
是 远 高 于 硬盘 ， 磁 盘 式 人 硬盘 仍然 会 存在 很 长 一 段 时 间 。 


2。 存 储 器 公司 


计算 机 发 明之 后 ， 市 场 上 对 存储 器 需求 很 大 ， 华 人 王 安 发 明了 磁 
心 存储 器 ， 王 安 电脑 公 司 一 度 办 得 有 声 有 人 色 。 

现在 大 家 都 知道 mmtel 是 做 处 理 器 的 ， 而 且 第 一 个 处 理 器 也 是 它 发 
明 的 ， 不 过 Intel 是 以 存储 器 起 家 的 ，1969 年 ，Intel 首 创 了 全 球 第 一 颗 
集成 电路 存储 心 片 ， 宣 告 了 老 一 代 磁 心 存储 器 的 寿终正寝 。 在 20 世 纪 
70、80 年 代 ，Intel 是 排名 第 一 的 存储 器 公司 ， 处 理 器 只 是 它 不 受 重 视 
的 小 业务 ， 而 且 一 直 被 Motorola 压 制 着 。 

由 于 日 本 是 一 个 资源 匮乏 的 国家 ， 因 此 特别 注重 知识 经 济 的 发 
展 ， 半 导体 是 国家 发 展 战略 的 重要 部 分 。 日 本 在 70 年 代 中 期 开始 布局 
半导体 产业 ， 有 瞄准 了 相对 技术 含量 不 是 那么 高 的 存储 器 产品 ， 日 本 兹 


于 大 规模 生产 出 高 质量 的 DRAM (内 存 条 使 用 DRAM 颗 粒 ) ， 伴 随 着 
大 型 计算 机 市 场 的 成 长 ， 日 本 的 DRAM 乘 势 崛起 ， 到 了 1986 年 ， 日 本 
存储 器 产品 的 市 场 占有 率 上 升 到 65%， 美 国 则 下 降 到 30%，Intel 公 司 
在 存储 器 上 花费 大 量 的 研发 费用 ， 但 是 营业 额 所 占 的 比例 却 逐 年 下 
滑 ， 此 时 Intel 面 临 成 立 以 来 最 大 的 转型 压力 。 某 一 日 风雨 如 星 ， 英 特 
尔 的 3 位 创始 人 面 对 着 不 景气 的 赤字 ， 坐 困 愁 城 ， 开 始 了 他 们 的 谈话 : 
“如 果 来 一 个 新 的 CEO 的 话 ， 他 会 做 什么 ?””，“ 把 我 们 开除 ， 并 停止 内 
存 生产 线 。” 于 是 他 们 走出 办 公 室 ， 停 掉 了 内 存 生产 线 ， 从 此 专攻 处 理 
器 ， 终 于 成 就 了 半导体 领域 的 王者 。 

上 世纪 80 年 代 的 存储 器 市 场 是 日 本 人 的 市 场 ， 不 过 到 了 90 年 代 ， 
PC 市 场 异 常 火爆 ， 而 PC 市 场 并 不 需要 这 么 高 质量 的 DRAM， 日 本 公司 
没有 反应 过 来 ， 韩 国 和 台湾 公司 乘势 生产 物美 价 廉 的 DRAM， 韩 国 迅 
速成 为 最 大 的 存储 器 生产 国家 。 此 后 ， 韩 、 台 在 DRAM 领 域 的 相继 凯 
起 ， 美 国 在 处 理 器 领域 称霸 ， 导 致 日 本 在 半导体 行业 全 面 衰退 。 

在 处 理 器 行业 ，Intel 是 老大 ， 在 半导体 存储 器 行业 ， 三 星 半导体 
是 老大 。 三 星 是 最 大 的 DRAM 和 闪存 生产 公司 。 

三 星 是 个 巨 无 霸 ， 正 如 人 台积电 董事 长 张 忠 谋 说 的 :“ 三 星 ， 是 所 有 
人 的 对 手 ， 三 星 几 乎 是 什么 电子 产品 都 要 做 。” 三 星 就 好 像 变 形 金刚 ， 
身上 随便 一 个 零件 拆 下 来 ， 都 可 以 和 一 家 著名 公司 抗衡 。 手 机 可 以 和 
诺基亚 、 苹 果 抗 衡 ， 显 示 器 没有 公司 能 抗衡 ， 存 储 器 没有 对 手 能 抗 


三 星 的 成 绩 离 不 开 它 的 执著 ， 一 个 公司 做 存储 器 做 了 10 年 亏损 还 
在 做 ， 这 家 公司 就 是 三 星 。 我 们 不 能 只 见 贼 吃 肉 ， 不 见 贼 挨打 ， 三 星 
屡 战 屡 败 ， 屡 败 屡 战 ， 终 于 成 就 了 今天 的 巨 无 堪 。 


1.3.3 ”主板 与 心 片 组 一 一 架 起 沟通 的 桥梁 


计算 机 内 部 这 么 多 部 件 ， 总 要 有 个 板子 来 承载 ， 这 个 板子 就 是 主 
板 。 主 板 提 供 了 各 种 各 样 的 接口 ，CPU、 显 卡 、 声 卡 、 硬 盘 、 光 驱 、 


PCI-E 插 槽 、USB 插 槽 等 部 件 都 接 在 上 面 。 除 了 起 物理 连接 作用 外 ， 主 
板 上 还 有 两 颗 重 要 的 心 片 ， 俗 称 北桥 和 南 桥 芯片 ， 统 称 为 芯片 组 ， 它 
们 的 主要 工作 ， 就 是 负责 处 理 器 和 其 他 部 件 间 的 通信 。 
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桥 ， 起 连接 作用 ， 负 责 通信 

上 北 下 南 ， 和 处 理 器 相 邻 的 桥 称 为 北桥 ， 北 桥 下 面 的 桥 称 为 南 
桥 。 南 桥 和 北桥 有 明确 的 分 工 ， 北 桥 负责 处 理 器 与 那些 需要 较 高 通信 
带宽 部 件 间 的 通信 ， 主 要 是 存储 器 和 显卡 ， 由 于 Intel Core i7 处 理 器 中 
集成 了 内 存 控制 器 ， 因 此 内 存 直 接 接 在 了 处 理 器 上 ， 很 多 处 理 器 没有 
内 存 控制 器 ， 那 么 北桥 芯片 则 会 提供 内 存 控制 器 连接 内 存 。 

南 桥 负责 处 理 器 与 较 低 速度 部 件 间 的 接口 ， 通 常 连接 各 种 输入 输 
出 设备 ， 如 USB、 硬 盘 等 。 

计算 机 的 性 能 主要 来 源 于 CPU、 内 存 和 显卡 的 性 能 ， 但 是 ， 如 果 
没有 适合 的 主板 和 芯片 组 ， 处 理 器 与 其 他 部 件 的 数据 通信 就 会 受到 限 
制 ， 影 响 处 理 器 的 运行 速度 ， 就 好 比 再 好 的 跑车 ， 在 乡间 小 路 上 也 是 
跑 不 快 的 。 芯 片 组 和 主板 一 般 是 针对 某 一 特定 处 理 器 或 某 一 处 理 器 家 
族 进行 设计 的 。 其 他 部 件 ， 如 显卡 、 硬 盘 、 键 盘 、 鼠 标 等 ， 则 相对 较 
独立 ， 只 要 符合 接口 标准 就 可 以 了 。 

近 几 年 来 ， 处 理 器 中 的 晶体 管 密度 有 了 很 大 的 提升 ， 以 至 于 完全 
可 以 将 芯片 组 的 功能 集成 到 处 理 器 内 部 ， 这 样 主板 的 面积 就 减 小 了 ， 


计算 机 更 小 型 化 ， 封 装 成 本 也 降低 了 。 
1.3.4 ”输入 设备 五 觉 


人 靠 五 觉 《听觉 、 视 觉 、 味 觉 、 触 觉 、 嗅 觉 ) 来 接受 外 界 的 信 
息 ， 计 算 机 也 要 靠 输 入 设备 来 接受 信息 。 


1. 键盘 


现在 用 的 QWERTY 键盘 最 早 来 自 于 打字 机 ， 专 家 们 发 现 ， 
QWERTY 键 盘 的 效率 并 不 是 最 高 ， 又 提出 了 一 套 DVORAK 的 键盘 。 但 
是 很 多 东西 ， 人 们 一 旦 熟悉 了 ， 就 不 想 再 改变 了 ， 因 此 QWERTY 键 盘 
仍然 占据 着 绝对 的 主流 。 


2. 鼠标 


鼠标 是 由 道格拉斯 :恩格尔 巴特 于 1946 年 发 明 的 ， 后 来 被 引入 到 了 
施乐 PARC 的 图 形 用 户 界面 中 ， 从 此 ， 鼠 标 成 了 电脑 的 标准 配置 。 

鼠标 经 历 了 机 械 鼠 标 、 光 电 鼠 标 、 无 线 鼠 标 ， 现 在 又 兴起 了 一 种 
3D 鼠 标 。 

传统 的 鼠标 放 在 桌 上 移动 ， 只 能 前 后 左右 移动 ， 而 3D 鼠 标 可 以 将 
鼠标 拿 在 空中 移动 ， 具 有 全 方位 立体 控制 能 力 。 它 具有 前 、 后 、 左 、 
右 、 上 、 下 6 个 移动 方向 。 如 果 用 一 个 形象 的 比喻 来 描述 ， 那 么 : 3D 
鼠标 三 传统 鼠标 十 遥控 器 。 

3D 鼠 标 在 游戏 、PPT 演 示 等 应 用 中 有 明显 的 优势 ， 玩 CS 时 ，3D 鼠 
标 就 好 像 真 枪 一 样 ， 可 以 在 3 维 空间 中 进行 位 置 的 移动 ， 比 2D 鼠 标的 
游戏 感 要 强 多 了 。 

除了 一 些 传统 概念 的 鼠标 ， 现 在 的 鼠标 也 是 越 来 越 有 创意 ， 如 下 
面 的 脚 用 鼠标 。 


脚 用 鼠标 
3. 触摸 屏 -一 一 切 触手 可 及 


iPhone 的 出 现 ， 使 得 触摸 屏 迅 速 在 手机 上 得 到 普及 ，iPad 将 这 种 
趋势 蔓延 到 电脑 上 。 纽 扣 和 按键 的 英文 都 是 “Button”， 传 言 乔 布 斯 为 
了 凸显 苹果 产品 没有 键盘 和 鼠标 ， 在 外 界 都 只 穿 圆 领 衬 衫 ， 表 现 出 苹 
果 产 品 “No Button” 的 意识 。 


乔布斯 在 产品 演示 时 从 来 不 穿 有 纽扣 的 衣服 


微软 的 Surface 电 脑 ， 触 摸 功能 也 是 非常 的 酷 。 触 摸 屏 可 以 是 在 茶 
几 上 、 吧 台 上 、 墙 上 等 地 方 ， 和 具体 的 场景 结合 起 来 ， 可 以 点 餐 、 点 
酒 、 休 闲 .…… 


Surface 


4. 眼睛 凝视 系统 


普通 电脑 的 光标 位 置 是 受 鼠 标 控制 的 ， 需 要 浪费 一 只 手 ， 而 眼睛 
凝视 系统 则 可 以 解放 人 的 双手 ， 通 过 眼睛 的 凝视 来 代 蔡 鼠标 。 


一 束 低能 量 的 激光 摄 入 眼睛 ， 然 后 从 视网膜 反射 出 去 ， 随 着 眼睛 
角度 的 变更 ， 反 射 也 在 变化 。 通 过 跟踪 反射 光束 ， 眼 睛 凝视 系统 可 以 
确定 眼睛 正在 看 着 的 方向 。 

下 图 是 一 个 人 在 用 眼睛 凝视 系统 控制 游戏 中 角色 的 移动 。 


眼睛 凝视 系统 

不 过 眼睛 凝视 系统 在 实际 使 用 中 ， 很 难 区 分 是 有 意 凝视 了 某 个 东 
西 还 是 偶然 警 了 一 眼 ， 因 此 在 实际 使 用 上 受到 限制 ， 不 过 在 某 些 特定 
领域 ， 还 是 很 有 用 途 的 。 


5。 游 戏 手 柄 


在 一 般 游戏 机 都 向 着 超 震 撼 视觉 效果 方向 发 展 的 趋势 下 ，Wii 游 戏 
机 回归 本 源 ， 向 着 简单 好 玩 、 运 动 的 方向 发 展 ， 在 全 球 大 卖 。Wii 游 戏 
机 众生 了 大 批 类 似 的 游戏 机 产品 。 


网 球 游戏 
当 人 们 用 手 挥 打 着 球拍 ， 游 戏 中 的 角色 就 呈现 相同 的 击 球 动作 。 
这 类 游戏 很 有 一 种 虚拟 现实 的 感觉 ， 游 戏 中 的 角色 就 是 我 们 在 虚拟 世 
界 里 的 化 身 ， 我 们 在 现实 世界 中 的 行为 ， 影 响 到 了 虚拟 世界 中 角色 的 


行为 ， 虚 拟 世界 中 情节 的 发 展 ， 也 反 过 来 影响 我 们 在 现实 世界 中 的 行 
为 ， 现 实 世 界 和 虚拟 世界 因此 形成 展 好 的 互动 。 

安装 在 这 些 拳击 手套 、 球 拍 里 面 的 ， 是 一 些 传感器 以 及 无 线 通信 
器 件 ， 传 感 器 检测 用 。 户 的 挥 拍 方向 、 速 度 等 信息 ， 无 线 通 信 器 件 和 
游戏 主机 通信 ， 传 递 传感器 检测 到 的 这 些 信息 。 


6。 语音 输入 


当 我 们 要 让 别人 做 一 件 事情 时 ， 只 需要 跟 他 (她 ) 说 就 可 以 了 ， 
但 当 我 们 让 计算 机 做 一 件 事 情 时 ， 我 们 必须 使 用 双手 去 控制 鼠标 、 键 
盘 。 长 久 以 来 ， 计 算 机 一 直 要 我 们 按照 它们 喜欢 的 方式 来 进行 沟通 ， 
完全 不 管 别 人 受 得 了 受 不 了 ， 而 人 们 也 逐渐 习惯 了 这 种 输入 方式 ， 以 
为 这 一 切 都 是 理所当然 。 不 过 专家 们 一 直 没 有 和 志 记 让 计算 机 能 像 普通 
人 一 样 进行 交流 。 

《 吉 勇 游侠 》 中 的 “Kitt" 绝 对 是 车 友 们 的 最 爱 ， 它 是 那么 的 善 解 人 
意 ， 就 好 像 一 个 真人 隐身 在 车 中 的 某 个 位 置 。Kitt 几 乎 无 所 不 能 ， 打 
坏人 、 撞 飞机 .…… 而 其 中 最 人 性 化 的 功能 就 是 Kitt 能 和 人 类 交谈 。 让 
Kitt 能 听 懂 人 类 的 语言 ， 叫 做 语音 识别 ， 让 Kitt 能 说 人 类 的 语言 ， 叫 做 
语音 合成 。 


《霹雳 游侠 》 剧 昭 
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手机 上 的 语音 拨号 功能 
现实 的 语音 识别 系统 还 远 远 没有 Kitt 这 么 强大 ， 不 过 仍然 有 很 多 
的 业务 已 经 商用 ，Office 就 能 让 人 们 用 声音 输入 命令 。 手 机 由 于 体积 的 
原因 ， 不 能 配置 较 大 的 键盘 和 鼠标 ， 因 此 ， 语 音 识 别 在 手机 上 更 有 一 
番 作 为 ， 上 图 就 是 iPhone 上 使 用 语音 拨号 功能 。 


1.3.5 ”显示 设备 一 脸面 


女生 们 常 说 男人 是 视觉 动物 ， 并 对 此 表示 不 满 ， 不 过 大 家 看 《 非 
诚 勿 扰 》 时 就 会 发 现 ， 当 男 嘉 宾 容 貌 一 般 时 ， 女 生 们 的 问题 通常 比较 
犀利 ， 说 话 的 语气 也 不 那么 注意 ， 而 要 是 有 一 个 很 籼 的 男 嘉 宾 出 现 
时 ， 女 生 们 则 都 改作 温柔 状 ， 说 话 的 语气 、 提 出 的 问题 都 要 柔弱 很 
多 ， 以 免 引 起 不 好 的 印象 。 

从 上 面 的 事实 可 知 ， 女 人 也 是 视觉 动物 ， 男 人 十 女人 三 人 ， 所 以 
人 都 是 视觉 动物 。 显 示 器 就 是 计算 机 的 脸面 ， 从 这 个 角度 上 说 ， 显 示 
器 才 是 计算 机 最 重要 的 部 分 。 


1。2D 显 示 器 


如 果 贴 近 显 示 器 或 者 电视 机 看 ， 就 会 注意 到 ， 显 示 屏 是 由 一 个 一 
个 的 小 方 格子 组 成 ， 每 个 格子 称 为 一 个 像素 点 。 每 个 格子 的 颜色 可 以 
只 有 黑白 两 色 ， 可 以 是 从 黑 到 白 的 不 同 灰 度 我 们 小 时 候 看 的 黑白 电 
视 机 ) ， 也 可 以 是 彩色 〈 现 在 的 电视 机 、 显 示 器 等 ) 。 

图 像 放 大 后 ， 束 会 看 得 出 格子 效果 ， 只 是 由 于 格子 在 正常 尺寸 下 
太 小 了 ， 人 眼 在 一 定 距离 外 是 看 不 出 来 的 ， 所 以 人 们 在 看 图 像 时 ， 都 
认为 图 像 是 光滑 的 。 


原始 图 像 
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放大 到 8 倍 的 效果 
几 年 前 的 显示 器 以 CRT 为 主 ， 而 现在 液晶 显示 器 (LCD) 则 占 主 


流 。 


不 怕 不 识 贷 ， 就 怕 货 比 货 ， 我 们 在 看 一 台 显 示 器 时 ， 一 般 感 受 不 
到 和 差别， 不 过 如 果 将 两 全 显示 器 进行 对 比 ， 关 距 融 能 显现 出 来 。 在 显 
示 效 果 上 ， 液 晶 的 确 是 没 法 和 等 离子 相 比 ， 等 离子 在 色彩 艳丽 程度 、 
亮度 范围 、 运 动 时 的 拖 影 效应 上 都 好 于 液晶 。 不 过 等 离子 的 更 贵 、 更 
重 、 更 耗 电 。 


2。3D 显 示 器 


一 部 《 阿 凡 达 》 在 全 球 把 3D 概 念 又 一 次 炒 火 了 ，《 阿 凡 达 》 的 票 
房 收 入 超过 了 中 国 一 年 电影 的 票房 总 收入 。 随 着 一 系列 3D 电 影 的 热 
映 ，3D 显 示 器 、3D 电 视 也 逐步 火 了 起 来 。 


3。 数 字 纸 张 


电子 书市 场 最 近 非 常 火 爆 ， 亚 马 进 、 汉 王 、Sony 等 公司 都 推出 了 
自己 的 电子 书 系统 ， 电 子 书 使 用 了 一 种 新 的 显示 技术 一 一 数字 纸张 。 


电子 书 


数字 纸张 不 同 于 LCD 显 示 屏 ， 它 断 电 后 仍 可 以 保留 信息 ， 只 是 在 
换 页 时 才 需 要 消耗 能 量 。 因 此 电子 书 的 功 耗 很 低 ， 待 机 时 间 很 长 。 电 
子 书 的 显示 效果 和 普通 的 纸张 相似 ， 光 线 较 为 自然 ， 不 像 LCD 显 示 屏 
这 么 刺眼 ， 因 此 可 以 长 时 间 观 看 。 

目前 市 面 上 电子 书 大 都 是 黑白 色 的 ， 彩 色 的 数字 纸张 也 已 经 出 
现 , 不 久之 后 ， 图 像 质量 将 会 达到 普通 显示 器 水 平 。 


4. 多 屏 


一 般 的 电脑 只 有 一 个 屏 ， 不 过 这 种 苹果 的 新 概念 电脑 有 3 个 屏 。 中 
间 的 屏幕 玩 游戏 ， 左 边 的 屏幕 聊天 ， 右 边 的 屏幕 看 电影 ， 真 是 绝 配 ! 


5。 卷 轴 显 示 屏 


左边 为 伸展 开 的 电脑 ， 右 边 为 卷 好 的 电脑 
这 种 新 概念 电脑 可 以 将 显示 屏 卷 起 来 ， 这 样 拿 一 个 电脑 就 好 像 背 
着 一 把 雨伞 一 样 ， 原 本 巨大 的 空间 变 得 很 小 巧 ， 电 脑 也 更 便携 。 


6。 投影 


“无 形 ” 在 武侠 小 说 中 被 公认 为 是 武 学 最 高 境界 ， 如 段 誉 的 六 脉 神 
剑 ， 能 以 无 形 剑 气 杀人 。 而 在 现实 武 学 中 ， 无 形 也 备 受 推崇 ， 李 小 龙 
就 说 过 : “以 无 法 为 有 法 ， 以 无 限 为 有 限 。” 屏 幕 的 最 高 境界 也 是 无 
形 ， 哪 里 都 没有 屏幕 ， 哪 里 都 是 屏幕 。 

一 直 以 来 ， 人 们 都 习惯 于 屏幕 ， 认 为 只 有 屏幕 才能 显示 。 习惯 是 
非常 可 怕 的 ， 习 惯 淹没 了 人 们 的 创造 性 。 不 过 还 是 有 很 多 人 打破 常 
规 ， 想 到 了 一 些 特别 的 东西 。 
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屏幕 、 键 盘 通 过 投影 来 实现 
随 着 集成 电路 的 发 展 ， 计 算 机 的 主机 是 可 以 变 得 非常 小 巧 的 ， 但 
是 人 机 通信 的 设备 却 不 能 变 小 ， 键 盘 太 小 了 按键 就 不 方便 ， 显 示 屏 太 
小 了 看 东西 就 不 太 舒 服 。 那 么 有 没有 一 种 方法 能 既 让 计算 机 变 得 便 
携 ， 又 不 影响 用 户 体验 呢 ? 在 上 面 这 个 Dell 的 新 概念 电脑 中 ， 就 展示 


了 这 个 思想 。 主 机 就 是 中 间 紫 色 的 东西 ， 显 示 和 键盘 都 通过 投影 实 
现 。 

这 种 投影 是 将 影像 投影 在 一 个 物体 上 ， 而 全 息 投 影 则 和 0 
影 在 空气 中 ， 这 种 我 们 在 好 莱 坞 电影 中 经 常 看 到 的 技术 ， 现 在 也 能 
ed et 
来 使 已 故 歌 星 邓丽君 “复活 ”登台 演唱 。 


日 本 大 阪 城内 的 全 息 投 影 


7。 屏 幕 总 结 


计算 机 的 核心 理念 没有 变化 ， 不 过 外 观 形态 却 发 生 了 巨大 的 变 
化 。 


屏幕 是 显示 计算 机 计算 结果 的 地 方 ， 即 使 不 是 最 天 键 的 地 方 ， 也 
是 最 吸引 眼球 的 地 方 。 在 越 来 越 注重 人 机 界面 的 今天 ， 屏 幕 已 经 逐渐 
成 为 了 一 个 重要 战场 ， 屏 幕 也 呈现 出 以 下 几 大 发 展 趋势 : 

(1) 越 来 越 大 : 大 屏幕 看 起 来 更 加 真实 ， 更 加 震撼 ， 即 使 是 手机 
的 屏幕 也 在 逐渐 增 大 。 

(2) 越 来 越 靓 : 屏幕 从 早期 的 黑白 ， 到 彩色 ， 再 到 现在 的 3D， 
效果 越 来 越 好 。 

(3) 越 来 越 无 形 : 投影 技术 将 会 得 到 飞速 发 展 ， 未 来 很 可 能 是 ， 
随身 市 一 个 电脑 ， 融 地 取 屏 幕 。 


1.3.6 ”显卡 一 一 我 贵 ， 因 为 我 专业 


显卡 是 连接 主机 与 显示 器 之 间 的 桥梁 ， 它 最 基本 的 功能 是 将 CPU 
送 来 的 图 像 数 据 处 理 成 显示 器 认识 的 格式 ， 册 送 到 显示 器 形成 图 像 。 
除了 这 个 基本 的 转换 功能 外 ， 现 在 的 显卡 还 有 两 大 功能 ， 一 是 图 像 绘 
制 ; 二 是 视频 解码 。 

显卡 内 有 一 个 处 理 器 ， 叫 做 GPU (Graphic Processing Unit， 图 形 
处 理 器 ) ， 图 形 用 户 界 面 、 视 频 游戏 等 ， 都 是 由 一 系列 图 形 、 图 像 组 
成 ，CPU 要 画 一 个 圆 时 ， 就 给 GPU 发 送 一 个 命令 ， 告 诉 GPU 圆圈 的 位 
置 、 大 小 、 颜 色 等 信息 ，GPU 就 自动 把 图 画 出 来 。 由 于 GPU 是 专门 针 
对 图 形 算 法 设计 的 ， 因 此 做 这 种 事情 的 能 力 比 CPU 要 强 ， 这 样 CPU 就 
可 以 节省 时 间 去 做 其 他 更 适合 自己 做 的 事 了 。 

我 们 看 的 视频 都 是 经 过 压缩 了 的 ， 在 播放 时 ， 要 先 解码 成 一 幅 一 
幅 的 图 像 ， 这 也 是 非常 耗 时 的 ， 这 块 工 作 现在 也 交 给 了 GPU。 


1.3.7 ”通信 接口 一 一 关节 


人 的 身体 有 很 多 天 已 ， 如 膝 关 节 ， 将 小 腿 和 大 腿 连 接 起 来 。 计 算 
机 有 很 多 部 件 ， 也 需要 通过 关节 将 它们 联系 起 来 。 


1. QPI 


QPI (QuickPath Interconnect) 是 Intel 最 新 的 已 片 间 点 对 点 互联 技 
术 ， 用 于 将 两 个 处 理 器 连接 起 来 ， 或 者 是 连接 处 理 器 与 北桥 心 片 ， 它 
代替 了 传统 的 前 端 总 线 (Front Side Bus) ，AMD 与 之 类 似 的 技术 叫做 
HyperTransport (HT) 。 


2。PCIPCI-E 


PCI (Peripheral Component Interconnect， 外 部 设备 互联 总 线 ) 是 
由 Intel 于 1992 年 提出 的 ， 是 一 种 连接 计算 机 主板 和 外 部 设备 的 总 线 标 
准 。 现 在 PCI 总 线 被 它 的 升级 版 本 PCI Express 取 代 。 

PCI 是 一 种 共享 式 总 线 ， 可 以 连接 多 个 设备 ， 但 由 于 数据 传输 的 
独 享 性 ， 一 个 时 刻 只 能 由 一 个 主 设备 占用 总 线 ， 总 线 上 必须 要 有 仲裁 
器 。PCI-E 则 是 PCI 的 升级 版 本 ， 其 速率 远大 于 以 前 的 PCI， 多 个 设备 
通信 时 采用 桥 的 方式 ， 两 两 互 不 干扰 。 

在 PC 中 ， 由 于 显卡 、 网 卡 等 都 是 通过 外 接 板 卡 接 入 到 PCI-E 插 槽 
中 ， 因 此 ，PCI-E 在 PC 领域 中 作为 板 间 互联 协议 。 在 说 入 式 设 备 中 ， 
由 于 空间 大 小 的 限制 ， 忆 片 被 直接 焊 在 PCB ( 印 制 电 路 板 ) 上 ， 使 用 
PCI-E 进 行 蕊 片 间 的 连接 ， 因 此 PCI-E 在 说 入 式 领 域 常 被 作为 蕊 片 间 互 
联 协 议 。 

与 PCI-E 竞 争 的 高 速 通信 接口 还 有 很 多 ， 如 说 入 式 系统 中 的 
RapidIO 等 ， 不 过 即使 在 能 入 式 领 域 ，PCI-E 也 是 使 用 得 最 多 的 。 


3。SAIA 


SATA 是 Serial ATA 的 缩写 ， 即 串 行 AITA， 由 于 采用 串 行 方式 传输 
数据 而 得 名 ， 是 目前 硬盘 的 主要 接口 。Serial ATA 一 次 只 会 传送 1 位 数 
据 ， 这 样 能 减少 SATA 接 口 的 针脚 数目 ， 使 连接 电缆 数目 变 少 ， 这 样 的 


架构 能 降低 系统 能 耗 和 减 小 系统 复杂 性 。 虽 然 一 次 只 能 传送 1 位 数据 ， 
但 是 却 可 以 使 用 较 高 的 工作 频率 来 提高 数据 传输 的 带宽 。 


4. USB 


USB 是 Intel、 康 柏 、DEC、IBM、 微 软 、NEC、 北 方 电 信和 联合 开 
发 的 外 部 总 线 ， 它 支持 即 插 即 用 ， 目 前 USB 几 乎 已 经 统一 了 PC 机 和 外 
部 可 插 拔 设 备 之 间 的 接口 ， 如 USB 鼠 标 、USB 键 盘 、U 盘 、USB 手 机 
接口 、USB 摄 像 机 接口 等 。 


5。 显 示 器 接口 


现在 很 多 显卡 上 都 带 有 3 个 接口 : VGA、DVI、HDMI 接 口 ， 用 于 
和 显示 器 连接 。VGA 是 比较 老 的 显示 接口 ， 传 输 的 是 模拟 信号 。DVI 
全 称 为 Digital Video Interface ， 传 输 的 是 数字 信号 ， 它 是 1999 年 由 
Silicon Image、Intel、Compaq、IBM、HP、NEC、Fujitsu 等 公司 共同 
组 成 DDWG (Digital Display Working Group ， 数 字 显 示 工 作 组 ) 推出 
的 接口 标准 。 

HDMI 全 称 是 High Definition Multimedia Interface， 于 2002 年 4 月 ， 
由 日 立 、 松 下、 飞利浦、 索尼 、 汤 姆 逊 、 东 之 和 Silicon Image 等 7 家 公 
司 联合 组 成 HDMI 组 织 。HDMI 能 高 品质 地 传输 未 经 压缩 的 高 清 视频 和 
多 声 道 音频 数据 。 现 在 的 高 清 电视 、 显 示 器 几乎 都 已 经 支持 了 HDMI 
接口 。 

HDMI 接 口 的 体积 比 DVI 更 小 ， 并 且 可 同时 传输 音频 及 视频 信号 ， 
线 缆 也 可 以 更 长 。 最 新 的 HDMI 1.4 接 口 支持 3D 视 频 。 


DVI 


NS 


I 


HDMI 
6. 接口 的 专利 费 


古代 土匪 打动 ， 比 较 常用 的 套路 就 是 在 路 中 央 设 一 道路 卡 ， 看 见 
有 人 过 来 就 吟 首 诗 :“ 此 山 是 我 开 ， 此 树 是 我 栽 ， 要 想 过 此 路 ， 留 下 买 


路 财 。” 

这 真是 笔 好 买卖 ， 来 的 去 的 ， 都 得 交 钱 。 现 在 的 公司 也 喜欢 这 
样 ， 只 是 采取 了 不 同 的 方式 ， 那 就 是 定义 接口 标准 ， 然 后 在 里 面 内 馈 
自己 的 专利 。 设 备 总 要 和 外 界 通信 吧 ， 当 一 种 接口 成 为 主流 ， 其 他 的 
设备 要 和 外 界 相 连 ， 就 要 符合 这 种 接口 ， 有 时候 也 免不了 交点 专利 
费 。 


1.3.8 ”软件 一 一 计算 机 的 灵魂 


没有 软件 的 计算 机 ， 就 好 像 没 有 三 魂 七 是 的 躯壳 ， 和 和 死尸 没有 区 
别 。 软 件 就 是 计算 机 的 灵魂 。 

根据 用 途 的 不 同 ， 软 件 被 分 为 操作 系统 和 应 用 软件 。 

一 个 大 家 族 通 常 都 有 一 个 管家 来 管理 家 族 的 各 大 产业 、 事 物 安 
排 、 日 常生 活 等 ， 同 样 ， 计 算 机 也 需要 一 个 管家 来 管理 、 调 度 自己 这 
么 多 的 硬件 ， 维 持 计算 机 的 运转 ， 这 个 软件 就 是 操作 系统 。 

既然 把 操作 系统 比 作 管家 ， 那 么 应 用 软件 就 只 能 用 长 工 来 比喻 
了 。 在 这 些 长 工 中 ， 有 帮助 主人 打字 的 ， 如 “Word”， 有 陪 主人 游戏 
的 ， 如 “CS”， 偶 尔 从 外 面 混 进来 一 些 居心 不 良 的 长 工 做 些 破坏 活动 ， 
这 些 就 是 病毒 程序 。 


应 用 软件 


硬件 、 操 作 系统 、 应 用 软件 的 关系 
1.3.9 ”计算 机 产业 发 展 态势 
1. 纵向 型 产业 链 


计算 机 产业 刚刚 兴起 时 ， 产 业 的 分 工 还 不 是 那么 明确 ， 计 算 机 产 
业 呈 现 出 纵向 结构 ， 如 下 图 所 示 : 


纵向 型 计算 机 产业 (20 世 纪 60 、70 年 代 ) 
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每 家 计算 机 公司 都 自己 设计 处 理 器 ， 自 己 生 产 计 算 机 ， 自 己 开发 
操作 系统 和 应 用 软件 ， 自 己 销售 ， 这 样 做 既 有 优势 也 有 劣势 。 优 势 在 
于 ,一 切 资源 协调 成 为 一 个 无 缝 的 整体 ， 兼 容 性 比较 好 ， 劣 势 在 于 ， 
一 旦 客户 购买 了 一 个 公司 的 产品 ， 他 就 被 绑 定 在 这 个 公司 上 面 ， 如 果 
遇 到 问题 ， 只 能 抛弃 整个 产品 系列 ， 这 样 做 的 代价 实在 太 大 。 而 且 计 
算 机 公司 什么 都 做 ， 常 常 并 不 专业 。 


2. 横向 型 产业 链 


后 来 ， 各 家 公司 为 了 更 快 的 推出 产品 ， 开 始 使 用 通用 处 理 器 ， 专 
业 的 软件 公司 也 越 来 越 多 ， 计 算 机 产业 随 之 横向 发 展 ， 如 下 图 所 示 : 


横向 型 计算 机 产业 (20 世纪 80、90 年 代 ) 
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模 向 型 计算 机 产业 链 
在 这 个 产业 链 结构 中 ， 同 一 个 处 理 器 可 以 拼装 成 各 种 品牌 的 计算 
机 ， 每 种 计算 机 上 又 可 以 运行 各 种 操作 系统 和 应 用 软件 ， 大 批量 、 灵 
活 的 生产 方式 带 来 极 大 的 效率 提升 ， 公 司 还 有 消费 者 都 受益 其 中 。 


3。 穿 越 时 代 


这 几 年 电视 台 流 行 穿越 剧 ， 如 《神话 》、《 宣 》 等 ， 而 网 上 的 穿 
越 小 说 更 是 比比 缘 是 ， 如 《史上 第 一 混乱 》、 《极品 家 丁 》、“《 庆 余 
年 》 等 。 可 能 是 大 家 觉得 单一 的 角色 太 没 有 意思 了 ， 都 想 去 别人 的 领 
地 玩 玩 。 

IT 公司 也 一 样 ， 苹 果 收 购 了 IC 公司 PA.Semi， 自 己 不 止 做 设备 ， 
也 做 起 了 心 片 ; Google 开 发 了 Android 操 作 系 统 ， 甚 至 还 自己 做 手机 ; 
Intel 不 止 做 芯片 ， 也 做 起 了 操作 系统 MeeGo; HP 买 了 WebOS 操 作 系 
统 ; Oracle 收 购 了 Sun， 不 止 有 软件 ， 还 有 了 服务 器 和 心 片 ;) 三 星 除 了 


卖 设 备 外 ， 还 做 芯片 ， 而 且 还 接 已 片 制造 外 包 的 活 ， 手 机 忌 片 公司 都 
提供 Turmn-key 《〈 交 钥匙 ) 服务 ， 不 止 提供 心 片 ， 还 将 整套 的 软件 及 手 
机 设计 指导 全 套 提供 给 了 用 户 ， 就 差 自己 帮 客 户 生 产 手机 了 。 所 有 的 
这 一 切 迹 象 ， 都 在 表明 一 种 趋势 : IT 行业 正在 垂直 整合 。 

我 们 在 学 哲学 时 ， 知 道 事物 的 发 展 通 音 呈 现 出 螺 线 状 上 升 的 态 
势 ， 计 算 机 行业 的 发 展 也 正 符合 了 这 种 趋势 。 


第 2 章 ” 初 识 处理 器 一 一 掀起 你 的 
兰 头 来 


处 理 器 者 ， 王 者 之 气 
硬件 搭 台 ， 软 件 唱戏 


导读 一 一 处 理 器 的 “ 钱 ” 途 


处 理 器 无 疑 是 PC 中 最 核心 的 设备 ， 无 疑 也 是 最 赚钱 的 设备 。 
目前 全 球 的 4 大 电脑 公司 一 一 惠普 、 宏 基 、 戴 尔 、 联 想 ， 它 们 卖 电 脑 赚 的 钱 ， 远 不 及 
Intel 卖 处 理 器 赚 的 钱 。 


HP 
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处 理 器 的 “ 钱 ” 途 


以 PC 老大 惠普 为 例 ，2010 年 公司 净 收 入 1260 亿 美金 ， 运 营利 润 115 亿 美金 ，PC 等 业务 
(Personal System Group) 的 净 收 入 为 407 亿 美金 ， 运 营利 润 为 20 亿 美金 。 而 Intel2010 年 的 净 
收入 为 436 亿 美金 ， 运 营利 润 为 156 亿 美金 ， 从 中 我 们 可 以 看 出 ，PC 公 司 是 卖 了 不 少 钱 ， 不 过 
钱 都 让 处 理 器 公司 赚 了 。 

最 核心 的 ， 才 是 最 赚钱 的 ， 才 是 我 们 最 该 去 关注 的 ， 下 面 开 始 我 们 的 处 理 器 之 旅 。 


2.1 处理 器 是 怎样 工作 的 一 一 处 理 器 的 硬件 模型 


2.1.1 ” 便 连 线 电 路 一 一 定 终身 


要 想 做 一 个 运算 ， 其 实 不 一 定 非 要 用 处 理 器 ， 用 普通 的 数字 电路 
也 可 以 实现 。 例 如 ， 下 面 这 个 运算 : 


out = inl + in2 * in3 + in4 * in5 * In67 | 


我 们 使 用 加 法 器 、 乘 法 器 可 以 搭 出 如 下 的 电路 : 


inl 一 一 十 
No—— 
1 一 人 
ind ee -— 中 out 
* 一 一 一 一 个 一 

有 

* 
In me 

电路 实现 模型 


这 个 电路 使 用 了 3 个 乘法 器 ，2 个 加 法 器 。 如 果 我 们 又 要 做 另 一 个 


以 前 搭建 的 电路 已 经 没 用 了 ， 我 们 必须 要 重新 搭建 另 一 个 电路 : 
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电路 实现 模型 


用 这 种 方式 来 实现 运算 ， 每 一 种 新 的 运算 ， 都 要 搭建 一 种 新 的 电 
路 ， 这 样 的 工作 太 劳 民 伤 财 了 ， 那 么 有 没有 一 种 通用 的 计算 设备 ， 一 
套 硬件 就 能 实现 所 有 的 功能 呢 ? 

有 ， 计 算 机 的 产生 就 是 为 了 解决 这 个 事 的 ! 


2.1.2 ”通用 计算 机 模型 一 一 硬件 搭 台 ， 软 件 唱 戏 


一 个 复杂 的 运算 ， 都 是 由 一 些 简 单 的 运算 组 合 而 成 的 ， 一 个 最 简 
单 的 运算 可 以 用 下 面 的 模型 表示 。 


简单 计算 模型 


例如 ，c 三 a 十 b， 输 入 数据 是 a 和 b， 输 出 数据 是 c<， 运 算 行 是 加 
法 。 

一 大 堆 的 运算 就 需要 一 大 堆 的 输入 数据 和 输出 数据 ， 我 们 首先 要 
有 一 个 存储 器 将 输入 数据 和 输出 数据 存 起 来 。 

然后 我 们 将 一 些 常用 的 基本 运算 ， 如 加 法 器 、 乘 法 器 等 堆 在 一 
起 ， 给 它 取 个 名 字 ， 叫 算术 逻辑 单元 (ALU ，Arithmetic Logic 
Unit) 。 

剩 下 的 事情 ， 就 是 要 有 一 个 控制 器 ， 去 控制 将 存储 器 中 的 数据 送 
到 ALU 中 去 做 运算 ， 然 后 将 结果 存 回 到 存储 器 中 来 。 数 据 放 在 哪 ， 做 
什么 运算 ， 这 些 都 由 指令 来 告诉 控制 器 ， 每 一 个 简单 的 运算 都 对 应 一 
条 指令 ， 这 些 指令 序列 就 组 成 了 完成 这 个 复杂 功能 的 程序 。 

这 就 是 计算 机 的 通用 计算 模型 ， 这 个 模型 可 以 用 下 面 这 个 图 描 


述 。 


| ~ 区 和 攻 骨 
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通用 计算 模型 
数据 要 从 外 部 输入 进来 ， 也 要 输出 出 去 ， 一 个 完整 的 计算 机 逻辑 
结构 如 下 图 所 示 。 


- 存储 器 | 
冯 诺 依 曼 结构 

这 个 结构 也 就 是 冯 : 诺 依 曼 在 他 著名 的 “关于 EDAC 的 报告 草案 ”中 
首 述 的 结构 。 这 种 结构 的 计算 机 被 叫做 冯 : 诺 依 曼 机 ， 实 际 上 ， 现 在 的 
计算 机 都 是 冯 : 诺 依 曼 机 。 

与 专用 数字 电路 不 同 的 是 ， 这 人 台 硬 件 什么 也 做 不 了 ， 除 非 配 上 具 
体 的 软件 。 软 件 由 指令 序列 组 成 ,决定 了 计算 机 要 完成 的 功能 。 

艺术 家 下 乡 表演 ， 到 一 个 地 方 ， 描 一 次 台 ， 演 出 一 次 ， 而 红 太 体 
育 馆 这 些 地 方 ， 一 次 建 好 后 ， 各 位 明星 都 可 以 去 那里 献 唱 。 计 算 机 就 
是 红 盔 体育 馆 : 硬件 搭 台 ， 软 件 唱戏 。 
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硬件 搭 台 
硬件 hardware 
硬件 搭 台 ， 软 件 唱戏 
随后 ， 集 成 电路 发 展 起 来 ， 人 们 发 现 ， 电 路 可 以 在 一 块 小 小 的 心 
片上 实现 ， 于 是 ， 计 算 机 的 基本 功能 就 被 转移 到 了 一 块 必 片 上， 这 块 
心 片 就 叫 处理 器 ， 再 配 上 各 种 输入 输出 设备 ， 以 及 其 他 辅助 设备 ， 就 
组 成 了 现代 的 计算 机 。 


2.2 ”怎样 来 使 用 处 理 器 一 一 处 理 器 的 编程 模型 


2.2.1 ” 软 硬 不 分 


早期 计算 机 出 现时 ， 软 件 的 编写 都 是 直接 面向 硬件 系统 的 ， 即 使 
是 同一 计算 机 公司 的 不 同 计算 机 产品 ， 它 们 的 软件 都 是 不 能 通用 的 ， 
这 个 时 代 的 软件 和 硬件 紧密 的 耦合 在 一 起 ， 不 可 分 离 。 


2.2.2 ISA 横 插 一 刀 


IBM 为 了 让 自己 的 一 系列 计算 机 能 使 用 相同 的 
软件 ， 免 去 重复 编写 软件 的 痛苦 ,在 它 的 
System/360 计 算 机 中 引入 了 ISA (Instruction Set 
Architecture， 指 令 集 体系 结构 ) 的 概念 ， 将 编程 所 
需要 了 解 的 硬件 信息 从 硬件 系统 中 抽象 出 来 ， 这 样 
软件 人 员 就 可 以 面向 ISA 进 行 编程 ， 开 发 出 的 软件 
不 经 过 修改 就 可 以 应 用 在 其 他 ISA 架 构 的 系统 上 。 ISA 将 软件 、 硬 件 解 耦 

ISA 用 来 描述 编程 时 用 到 的 抽象 机 器 ， 而 非 这 
种 机 器 的 具体 实现 。 从 编程 人 员 的 角度 来 看 ，ISA 包 括 一 套 指 令 集 和 
一 些 寄存 器 ， 程 序 员 知道 它们 就 可 以 编写 程序 。 在 PC 领域 ，Intel 和 
AMD 的 处 理 器 都 是 基于 x86 指 令 集 ， 因 此 我 们 不 用 担心 换 了 更 高 性 能 
的 CPU， 软 件 不 能 用 ， 而 手机 上 的 程序 不 能 在 电脑 上 用 ， 这 是 因为 手 
机 上 的 程序 绝 大 部 分 是 基于 ARM 指 令 集 的 。 


2.3 ”处 理 器 的 分 层 模 型 


ISA 的 出 现 ， 是 处 理 器 领域 的 一 件 大 事 ， 处 理 器 的 外 部 呈现 和 内 
部 实现 可 以 分 离开 来 。 处 理 器 被 分 为 3 个 层次 ， 如 右 图 所 示 。 


ISA 常 被 简称 为 Architecture (架构 ) ， 指令 集体 系 结构 ， 
是 处 理 器 的 一 个 抽象 描述 ，ISA 在 处 理 器 中 Pw 站 
的 实现 ， 被 称 为 Microarchitecture ( 微 架 处 理 向 好 构 
构 ) ， 同 样 是 x86 的 Architecture ， Intel 和 “处 理 碍 物理 实现 、 
AMD 各 自 使 用 不 同 的 Microarchitectureo。 

通俗 的 说 ，Architecture 是 处 理 器 的 外 人 
表 ，Microarchitecture 是 处 理 器 的 内 心 。Architecture 是 设计 规范 ， 定 义 
处 理 器 能 做 什么 ，Microarchitecture 是 设计 实现 ， 描 述 处 理 器 是 怎么 实 
现 功 能 的 ， 物 理 实现 是 具体 的 实现 过 程 ， 可 以 用 20nm 的 集成 电路 工艺 
实现 处 理 器 ， 也 可 以 用 40nm 的 工艺 实现 ， 可 以 用 电子 实现 (电子 计算 
机 ) ， 也 可 以 用 量子 实现 (量子 计算 机 ) 。 

如 果 用 软件 开发 的 流程 来 和 处 理 器 进行 对 比 ， 那 么 Architecture 就 
好 比 需求 ，Microarchitecture 好 比 设计 ， 物 理 实现 好 比 真 正 的 代码 。 

Microarchitecture 通 常 也 可 以 认为 等 同 于 内 核 (core) ， 一 个 处 理 
器 除了 内 核 外 ， 也 还 有 很 多 其 他 的 东西 。 例 如 : LO (Input/Output) 、 
电源 、 时 钟 等 ， 同 样 一 种 微 架构 可 以 出 多 种 型 号 的 处 理 器 。 


处 理 器 一 般 结构 


上 面 这 张 图 描述 了 一 个 处 理 器 的 物理 结构 ， 它 包括 3 大 部 分 : 内 
核 、 存 储 器 、 外 设 与 接口 。 

下 面 这 张 图 以 丙 用 处 理 器 的 例子 描述 了 指令 集 、 微 架构 、 处 理 器 
之 间 的 关系 : 


指令 集 、 微 架构 、 处 理 器 的 关系 
Intel 著 名 的 奔 2、 奔 3 电脑 ， 使 用 了 Intel 历 史上 非常 成 功 的 P6 微 架 
构 ， 奔 4 及 一 部 分 至 强 处 理 器 使 用 了 NetBurst 微 架构 ， 它 们 都 使 用 x86 


指令 集 。ARM 公 司 设计 的 ARMCortex-A8 内 核 使 用 ARMv7 指 令 集 ， 被 
用 在 了 TI、 三 星 等 很 多 公司 的 处 理 器 上 。 


2.4” 选 什么 样 的 处 理 器 一 一 适合 的 才 是 最 好 的 


选 处 理 器 就 像 找 老婆 ， 没 有 好 坏 之 分 ， 只 有 适合 与 不 适合 之 分 ， 
适合 的 才 是 最 好 的 。 系 统 集成 公司 在 选择 处 理 器 时 ， 通 常会 考量 这 些 
因素 : 


接口 性 能 


心 片 尺寸 


易 省- 长 片 成 熟 度 
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。 编程 S t+ 月 攻 本 
。 调 试 心 个 民企 
e 资源 。 系统 成 本 
oA 。 开 发 成 本 
。 上 市 上 时间 
选择 处 理 器 的 考量 因素 
2.4.1 ”硬件 指标 一 一 硬 实力 的 竞争 


1. 性 能 


性 能 是 选择 处 理 器 第 一 要 考虑 的 因素 ， 如 果 性 能 达 不 到 要 求 ， 其 
他 条 件 再 好 也 没 用 。 下 面 是 单 用 的 评估 性 能 的 基准 : 


时 钟 基准 


MIPS (Millions of Instructions Per Second) ，MFLOPS (Millions 
of Floating-point Operations per Second) 常常 被 处 理 器 公司 用 于 衡量 处 
理 器 的 性 能 。MIPS 越 高 ， 则 理论 上 每 秒 钟 可 以 执行 的 指令 数 也 越 多 ， 
但 是 ， 每 秒 实际 执行 的 指令 数 是 会 少 于 理论 值 的 ， 如 并 行 性 不 强 、 
Cache miss、 通 信 效 率 、 总 线 冲突 等 都 会 影响 到 实际 值 和 理论 值 的 差 
距 。MIPS、MFLOPS 是 处 理 器 公司 最 容易 给 出 的 指标 ， 也 能 大 致 的 反 
映 处 理 器 的 性 能 ， 但 不 能 真实 的 反映 。 


综合 基准 


人 们 一 直 在 寻找 一 种 单一 的 基准 ， 这 种 基准 可 以 独立 于 任意 类 型 
的 计算 机 来 进行 公平 的 比较 。 最 后 人 们 统一 作出 了 如 下 一 个 结论 : 用 


第 三 代 语 言 〈《C 语 言 等 ) 编写 一 个 程序 ， 在 不 同 的 系统 上 编译 运行 ， 
然后 测试 在 不 同 的 系统 上 每 次 运行 该 程序 所 需 的 时 间 。 这 一 思想 又 有 3 
个 分 支 : Whetstone 主 要 侧重 于 浮 点 运算 ，Linpack 主 要 侧重 于 线性 代 
数 程序 ，Dhrystone 主 要 侧重 于 字符 串 和 整数 程序 。Dhrystone 基 准 的 评 
测 方法 是 : 统计 某 程序 1 秒 内 能 执行 的 次 数 ， 也 即 每 秒 的 Dhrystone 
数 。 

应 该 说 ， 综 合 基准 提供 了 一 些 依据 ， 不 过 也 并 不 完善 ， 因 为 要 想 
在 某 处 理 器 上 获得 最 佳 性 能 ， 需 要 在 编程 时 对 程序 做 针对 处 理 器 的 优 
化 ， 而 一 个 优秀 的 优化 者 和 一 般 的 优化 者 得 到 的 性 能 差别 是 相当 大 
的 。 影 响 最 终 程序 执行 性 能 的 ， 并 不 仅仅 是 处 理 器 硬件 ， 还 包括 软 
件 ， 以 及 软件 与 硬件 的 配合 ， 这 是 一 个 系统 工程 ， 很 难 下 一 个 很 严肃 
的 结论 。 不 过 对 于 一 般 应 用 来 说 ， 综 合 基 准 已 经 能 反映 出 处 理 器 的 大 
致 性 能 了 。 
专业 评估 组 织 基 准 


标准 性 能 评估 公司 (SPEC， Standard Performance Evaluation 
Corporation) 成 立 于 1988 年 ，SPEC 从 各 种 不 同 的 应 用 场景 中 选 出 一 些 
比较 有 代表 性 的 程序 ， 称 为 基准 套件 (Benchmark Suite) 。SPEC 基 准 
中 最 出 名 的 是 它 的 CPU 套件 ， 用 于 测试 CPU 的 吞吐 量 、Cache 和 存储 器 
的 访问 速度 等 。 

在 诅 入 式 领 域 ，EEMBC (Embedded Microprocessor Benchmark 
Consortium) 基准 常 被 使 用 ， 其 应 用 涵盖 汽车 、 消 费 电 子 、 通 信 等 领 
域 。 


2. 功 耗 


Google 曾 经 的 运营 高 级 副 总 裁 Urs Hoelzle 说 : 
“我 们 曾经 设想 ， 把 庞大 的 服务 器 放 在 一 稻 船 上 ， 让 流水 发 动能 
源 ， 带 动 信息 的 整合 。 这 看 起 来 风光 无 限 的 浪漫 图 景 ， 诉 说 着 我 们 对 


理想 不 舍 昼 夜 的 追求 。” 

如 果 把 Urs Hoelzle 的 这 句 话 理解 为 Google 多 么 有 创意 、 多 么 有 理 
想 ， 那 就 错 了 。 俗 话说 ， 吃 菜 吃 心 ， 听 话 听 音 ， 听 话 要 听 是 谁 说 的 。 
作为 管理 几 百 万 台 (甚至 更 多 ) 计算 机 的 大 佬 ，Urs Hoelzle 比 一 般 人 
更 能 理解 “ 电 老 虎 * 的 含义 。Google 是 一 家 信息 服务 公司 ， 公 司 的 成 本 
除了 员工 的 成 本 外 ， 就 属 这 些 计 算 机 的 成 本 最 多 了 。 计算机 硬件 只 是 
一 次 性 投入 ， 而 耗 电 、 制 冷却 是 每 年 都 要 付 钱 的 。 美 国 研究 机 构 的 数 
据 显 示 ， 过 不 了 几 年 ， 用 电 和 制冷 的 费用 就 超过 了 计算 机 本 身 的 价格 
a 

Google 在 俄勒冈 州 新 建 了 数据 中 心 ， 原 因 就 是 这 里 水 资源 丰富 ， 
有 全 美 最 廉价 的 电费 ， 也 可 提供 水 冷 。 


Google 在 俄勒冈 州 (Oregon) 的 数据 中 心 

现在 不 少 像 Google 这 样 的 公司 ， 都 在 宣称 自己 绿色 、 环 保 ， 这 并 
不 仅仅 是 政治 觉悟 高 ， 应 该 说 经 济 觉悟 也 很 高 。 

不 只 Google 这 样 的 巨头 需要 关注 功 耗 ， 我 们 这 些小 市 民 实际 上 也 
会 天 注 功 耗 ， 最 典型 的 一 个 例子 就 是 ， 每 个 买 手机 的 人 都 会 问 :“ 这 款 
手机 待机 时 间 多 长 ? ”这 实际 上 就 是 一 个 问 功 耗 的 问题 。 

在 现在 的 PC 里 ，CPU 和 显卡 是 功 耗 大 户 。 功 耗 大 ， 就 需要 散热 片 
和 风扇 散热 ， 不 只 耗 电 ， 增 加 体积 ， 而 且 风 局 产生 的 噪声 严重 影响 了 


人 们 的 健康 和 心情 。Inteal 和 AMD 也 有 很 多 CPU 专 为 低 功 耗 而 设计 。 

性 能 和 功 耗 是 处 理 器 最 重要 的 两 个 硬指标 ， 这 两 者 很 难 同时 满 
足 。 每 个 处 理 器 厂商 都 会 根据 自己 的 目标 市 场 定位 在 这 个 跷 跷 板 上 找 
到 一 个 自己 的 平衡 点 。 


处 理 器 的 硬指标 : 高 性 能 和 低 功 耗 的 平衡 


3。 面 积 


便于 携带 的 产品 ， 通 常 都 是 很 受 欢迎 的 ，Sony 的 随身 听 就 是 这 样 
的 一 代 经 典 。 

现在 的 手机 ， 功 能 一 少 融 卖 不 出 去 ， 而 要 增加 功能 ， 单 弟 需 要 增 
加 新 的 心 片 ， 如 陀螺 仪 、 加 速 计 等 传感器 ，WiFi、GPS 等 无 线 心 
片 .…… 在 能 装 进口 袋 的 手机 中 装 这 么 多 心 片 ， 也 是 一 件 不 简单 的 事 
情 ， 心 片 体 积 绝对 不 能 大 。 


4. 接口 


处 理 器 并 不 是 独自 在 工作 ， 由 于 它 需 要 和 周围 的 器 件 配合 使 用 ， 
因此 就 必须 有 接口 和 外 部 进行 通信 。 如 果 处 理 器 本 身 能 实现 某 个 功 
能 ， 但 是 因为 缺乏 相应 的 接口 而 不 能 使 用 ， 就 非常 让 人 忱 惜 了 。 大 多 
数 处 理 器 都 会 设计 很 多 的 接口 ， 因 为 有 的 用 户 会 用 这 几 个 接口 ， 有 的 
用 户 会 用 另外 几 个 。 


2.4.2 ”软件 指标 


软 实力 的 竞争 


1. 软件 开发 环境 


软件 开发 环境 和 处 理 器 的 关系 就 好 比 手柄 和 游戏 机 ， 手 柄 不 好 
用 ， 游 戏 机 的 可 玩 性 就 大 打折 扣 。 

友好 的 开发 环境 能 减少 软件 人 员 的 学 习 成 本 ， 提 高 程序 开发 、 调 
试 的 效率 ， 较 好 的 Bug 定 位 手段 也 非常 重要 ， 较 多 的 阔 数 库 也 能 大 大 
减轻 程序 员 的 工作 量 。 


2。 编译 器 性 能 


绝 大 多 数 程序 员 都 使 用 高 级 语言 《C/Java 等 ) 来 编写 程序 ， 编 译 
器 将 高 级 语言 转换 成 处 理 器 能 够 理解 的 二 进 制 代码 ， 也 就 是 说 ， 处 理 
器 的 能 力 要 靠 编译 器 才能 体现 出 来 ， 处 理 器 功能 再 强大 ， 如 果 没 有 一 
个 好 的 编译 器 来 展现 它 的 能 力 ， 就 好 比 茶壶 里 的 饺子 ， 倒 不 出 来 。 


3。 软件 兼容 性 


之 不 硅 张 的 说 ， 兼 容 性 对 于 大 众 产 品 ， 其 重要 性 不 下 于 性 能 。 人 
们 一 旦 习惯 于 什么 ， 就 不 再 希望 改变 了 。QWERTY 键 盘 被 证 实 打 字 效 
率 并 不 是 最 高 ， 有 人 推出 了 效率 更 高 的 键盘 ， 但 是 在 市 场 上 却 并 不 能 
被 人 们 接受 。 

《时 代 》 周 刊 对 过 去 10 年 来 的 10 大 失败 科技 产品 进行 了 总 结 ， 其 
中 微软 Vista 操 作 系 统 名 列 第 一 。Vista 操 作 系统 失败 的 原因 很 多 ， 如 运 
行 速度 慢 等 ， 其 中 最 让 人 诉 病 的 ， 就 是 Vista 的 兼容 性 太 差 。 任 何 想 挑 
战 兼容 性 的 产品 ， 几 乎 都 以 失败 告终 。 

处 理 器 也 是 一 样 ， 用 户 并 不 关心 新 处 理 器 的 技术 有 多 先进 ， 用 户 
只 会 天 心 使 用 新 的 处 理 器 后 ， 程 序 是 否 执行 得 更 快 。 而 如 果 原 来 的 程 
序 在 新 的 处 理 器 上 不 能 执行 ， 那 再 快 的 处 理 器 也 没有 用 。 

软件 的 兼容 性 可 以 分 为 二 进 制 兼容 和 源 代码 兼容 。PC 上 的 应 用 程 
序 在 每 一 代 处 理 器 上 都 可 以 正常 运行 ， 这 就 是 二 进 制 兼 容 。PC 上 的 程 


序 不 能 在 手机 上 和 运行， 如 果 程 序 在 手机 平台 上 重新 编译 一 下 ， 就 可 以 
在 手机 上 运行 ， 那 么 就 称 这 个 程序 为 源 代码 兼容 。 

硬件 的 成 本 受 摩 尔 定律 的 影响 ， 成 本 越 来 越 低 ， 而 人 力 成 本 则 逐 
年 升 高 ， 因 此 ， 保 证 软件 的 兼容 性 对 客户 就 显得 非常 重要 。 


2.4.3 ”商业 指标 一 一 在 商 言 商 
1。 芯片 价格 


在 商 言 商 ， 买 东西 当然 得 看 价格 。 通 常 来 说 ， 一 件 东西 的 价格 和 
它 本 身 的 价值 关系 并 不 大 ， 而 和 市 场 竞争 的 关系 较 大 。 岩 入 式 处 理 器 
领域 竞争 激烈 ， 心 片 通 剃 售 价 较 低 ， 而 PC 行业 处 理 器 竞争 缓和， 因此 


售 价 较 高 。 
2。 芯 片 成 熟 度 


现在 的 电子 设备 几乎 都 会 使 用 处 理 器 ， 处 理 器 芯片 是 整个 产业 链 
条 的 最 底层 ， 如 果 根 基 出 了 问题 ， 修 复 的 成 本 相当 之 高 ， 对 业务 的 影 
响 也 是 非常 巨大 的 。 

1994 年 ， 美 国教 授 Thomas R. Nicely 发 现 Intel pentium 处 理 器 浮 点 
运算 单元 的 一 个 bug， 让 Intel 损 失 了 4.75 亿 美金 。 


应 用 软件 


开源 代码 


处 理 器 生态 环境 


3. 心 片 生态 环境 一 哥 不 是 一 个 人 在 战斗 


处 理 器 不 是 孤立 存在 的 ， 它 需要 有 操作 系统 的 支持 、 有 开发 工具 
的 支持 、 有 应 用 软件 的 支持 、 有 程序 员 的 支持 等 。 

生态 链 的 维持 ， 比 处 理 器 本 身 更 加 重要 。x86 处 理 器 有 最 广泛 的 程 
序 员 ， 有 最 多 的 工具 ， 有 最 多 的 现成 代码 ， 这 些 都 是 Intel 巨 大 的 优 
势 。 有 了 完善 的 生态 环境 的 支持 ， 在 处 理 器 上 开发 程序 ， 就 会 事 半 功 


立 
口 o 


第 3 章 ”指令 集体 系 结构 
器 的 外 表 


我 对 上 珊 说 西班牙 语 ， 
对 女人 说 意大利 语 ， 
对 男人 说 法 语 ， 

对 我 的 马 说 德语 。 


处 理 


一 一 查理 五 世 ， 法 国 国王 


导读 一 一 指令 集 的 威力 


2009 年 6 月 15 日 ，MIPS 公 司 网 站 发 布 新 闻 ， 中 国 科 学 院 计 算 所 取得 MIPS32 和 MIPS64 
Architecture 的 授权 ， 用 于 龙 心 的 开发 和 商用 。 在 处 理 器 领域 ，Architecture 指 处 理 器 的 指令 
体系 结构 ，Microarchitecture 指 处 理 器 的 微 架 构 ， 也 就 是 内 部 实现 的 结构 。 这 则 新 闻 翻 译 一 下 
就 是 : 龙 心 采用 了 MIPS 的 指令 集 。 新 闻 见 下 面 的 链接 : 

http:/www.mips.com/news-events/newsroom/release-archive-2009/6_15_09.dot 

处 理 器 是 电子 、 信 息 领域 最 关键 、 最 底层 的 技术 ， 一 直 被 国外 把 持 着 ， 龙 改作 为 我 国 自 
主 研发 的 处 理 器 ， 牵 动 着 各 方面 的 神经 ， 我 们 都 希望 自己 的 处 理 器 能 完全 自我 创新 ， 不 被 外 
界 控制 ， 然 而 ， 龙 忆 还 是 不 得 不 使 用 了 现存 的 指令 集 ， 这 归根 到 底 ， 还 是 指令 集 的 威力 太 强 
大 ， 它 的 强大 在 于 它 背 后 是 一 个 生态 链 ， 而 不 是 一 家 公司 。 

指令 集 就 像 语言 (汉语 、 英 语 等 ) 一 样 ， 定 义 一 套 语言 其 实 并 不 难 ， 难 的 是 你 要 让 别人 
去 接受 你 定义 的 语言 。 如 果 重 新 使 用 一 套 指令 集 ， 与 之 配套 的 编译 器 、 操 作 系统 、 各 种 应 用 


软件 也 都 要 重新 编写 ， 这 样 的 工作 量 和 难度 ， 是 无 法 想象 的 ， 因 此 使 用 现存 的 指令 集 及 软 
件 ， 也 是 无 奈 的 选择 。 


ISA 的 地 位 


3.1 指令 集 是 什么 


3.1.1 ”从 处 理 器 编程 模型 谈 起 一 一 一切 从 模型 开始 


处 理 器 的 主要 任务 就 是 计算 ， 如 C= 二 A 十 B， 人 们 一 看 就 知道 这 句 
话 是 什么 意思 ， 但 是 处 理 器 只 能 认识 0 和 1， 不 认识 这 句 话 ， 而 且 处 理 


器 更 不 知道 CA 十 B 和 C=B 二 A 是 一 个 意思 。 因 此 ， 我 们 要 定义 一 套 
规则 让 计算 机 能 够 理解 人 类 的 意图 。 

我 们 将 A、B、C 称 为 操作 数 ,“ 十 ” 称 为 操作 码 。 处 理 器 中 做 运算 
的 单元 称 为 ALU (算术 逻辑 单元 ) ， 操 作 码 代表 了 ALU 中 的 一 
算 。 操 作 数 存 储 在 存储 器 (Memory) 中 ， 由 于 从 存储 器 中 访问 数据 很 
慢 ， 因 此 在 离 ALU 很 近 的 地 方 放置 了 一 些 寄 存 器 (Registers) ， 这 样 
中 间 计 算 结果 就 可 以 存储 在 寄存 器 中 ， 不 用 每 次 都 经 过 存储 器 。 


,. EECECECECECNCNN 
全 帮 B © 一 一 一 一 一 


Registers B 


A RE 
处 理 器 的 运算 模型 
一 个 基本 的 C=A 十 B 操 作 ， 可 以 分 解 为 下 面 这 些小 的 步骤 来 完 
成 : 
load R3，#0; 从 内 存 地 址 0 处 取 A 这 个 值 ， 放 在 R3 中 | 
load R2, #1; 从 内 存 地 址 1 处 取 B 这 个 值 ， 放 在 R2 中 


add RO, R3, R2; 把 R3 和 R2 相 加 ， 结 果 存 放 到 R0 中 
store RO, #2; 把 RO 中 的 值 存放 在 内 存 地 址 2 中 


每 行 语句 就 是 一 条 指令 ，load、add、 store 为 操作 人 码 ， 后 面 跟 着 的 
是 操作 数 ,“; ”后 为 注释 ， 这 种 指令 的 写法 就 是 汇编 语言 的 格式 。 处 
理 器 公司 对 外 发 布 的 指 令 集 手册 ， 就 使 用 汇编 语言 来 进行 描述 。 

由 于 计算 机 只 能 认识 0 和 1 这 两 个 数字 ， 不 认识 load、add 这 些 字 
因此 ， 这 些 字 要 被 编码 为 计算 机 能 认识 的 格式 。 

我 们 对 操作 码 进 行 编码 ， 假 设 处 理 器 只 有 4 条 指令 ， 那 么 每 条 指令 
用 2 bit 即 可 表示 : 


人 类 认识 的 操作 码 计算 机 认识 的 操作 码 
load 00 
add 0 


人 类 认识 的 操作 码 计算 机 认识 的 操作 码 
store 10 


11 


对 操作 码 编码 
同样 的 方法 ， 可 以 对 寄存 器 和 内 存 进 行 编码 。 
人 类 认识 的 寄存 器 计算 机 认识 的 寄存 器 。 | 人 类 认识 的 寄存 器 计算 机 认识 的 寄存 器 


RO 00 
R] 


R2 10 
R3 11 


对 寄存 器 编码 
这 时 候 ， 我 们 就 可 以 定义 add 这 条 指令 在 计算 机 中 的 格式 : 


Bit 2 


Bit 0 


操作 码 | ”第 1 个 操作 数 ” | ”第 2 个 操作 数 ” | 第 3 个 操作 数 
指令 格式 示例 
这 种 经 过 编码 后 的 指令 称 之 为 机 器 语言 。 
汇编 语言 机 器 语言 
add RO,R3,R? 01001110 
汇编 语言 与 机 器 语言 


处 理 器 在 读 到 指令 01001110 时 ， 根 据 指令 的 格式 进行 解码 ， 解 出 
操作 码 和 操作 数 ， 然 后 执行 。 


3.1.2 ”计算 机 语言 一 一 人 与 计算 机 沟通 的 桥梁 


早期 人 们 编程 时 ， 都 是 使 用 汇编 语言 进行 编程 ， 编 译 器 将 汇编 语 
言 翻译 成 机 器 语言 ， 交 由 计算 机 执行 ， 汇 编 语 言 描述 了 计算 机 的 运算 
过 程 ， 但 是 却 不 符合 人 类 的 思维 方式 ， 程 序 员 苦 在 其 中 。 

1977 年 ， 巴 库 斯 在 图 灵 奖 受奖 演说 时 讲 到 :“ 程 序 设计 能 从 冯 : 诺 
伊 曼 风 格 中 解放 出 来 吗 ? ” 巴 库 斯 为 什么 能 得 到 图 灵 奖 ， 原 因 在 于 他 发 
明了 世界 上 第 一 个 高 级 语言 Fortran， 他 当时 在 IBM 工 作 。 巴 库 斯 向 人 
们 介绍 了 一 种 全 新 的 编程 概念 : 程序 员 知 道 自己 想 要 做 什么 ， 而 并 不 


需要 知道 是 怎样 做 的 。 高 级 语言 的 编程 风格 更 接近 于 人 类 的 自然 语 
言 ， 有 了 高 级 语言 后 ， 程 序 员 就 摆脱 了 对 计算 机 的 依赖 。 

后 来 ， 又 陆续 出 现 了 C/C 十 十 、Java 等 高 级 语言 ， 在 这 些 语言 中 ， 
两 个 数 求 和 就 可 以 写成 C=A 十 B， 这 样 更 符合 人 们 的 表达 方式 ， 编 程 
也 更 为 方便 。 

CC 十 十 这 些 语言 ， 离 人 们 的 自然 语言 还 很 远 ， 编 程 语言 也 一 直 
向 着 更 智能 的 方向 发 展 。 在 C 语 言 中 ， 和 矩 阵 的 乘法 运算 要 写 3 级 for 循 
环 ， 而 在 Matlab 中 ， 只 要 一 行 语句 就 可 以 了 。 在 数据 库 语 言 SQL 中 ， 
在 一 个 表 中 找 什 么 字段 ， 只 要 SELECT xx FROM xx 就 可 以 了 ， 如 果 用 
C 语 言 ， 则 需要 大 量 的 循环 和 比较 操作 。 

未 来 ， 编 程 语言 将 发 展 到 和 人 类 的 自然 语言 统一 ， 电 脑 能 听 懂 人 
类 的 语言 ， 这 样 人 们 就 只 要 告诉 电脑 要 做 什么 ， 而 不 用 告诉 电脑 怎么 
人 做。 最近， 参加 知识 竞赛 而 闻名 的 IBM 计 算 机 Watson 在 人 类 语言 理解 
上 有 了 很 大 的 突破 ， 它 还 能 够 回答 一 些 脑筋 急 转 弯 题目 ， 相 信 未 来 会 
做 得 更 好 。 


人 类 语言 交换 v[kK] 和 v[k+1] 的 值 
编程 
temp=v[k]; 
高 级 语言 | v[k]=v[k+1]: 
vIk+1]=temp; 
网 详 阔 
1 加 IwR1S， 0O(R2) 
Iw RI6, 4(R2) 
i€ 乡 说 襄 sw R16. 0O(R2) 
.3 sw RI1IS,. 4A4(R2) 
沪 编 姨 
_ 1000110001100010000000000000000 
py 1000110011110010000000000000010 
栅 费 语言 1010110011110010000000000000010 
kA [1010110001100010000000000000000 
2 JISA 
翻译 


人 类 和 计算 机 对 话 流程 


3.2 ”指令 集 发 展 的 来 龙 去 脉 
3.2.1 CISC 时 代 一 一 粗放 式 扩 张 


CISC 代 表 Complex Instruction Set Computer (复杂 指令 集 计 算 
机 ) ， 其 实 最 早 并 没有 CISC 这 个 词 ， 只 是 后 来 出 现 了 新 的 计算 机 设计 
思想 ， 于 是 将 采用 新 思想 开发 的 计算 机 称 为 RISC (Reduced Instruction 
Set Computer， 精 简 指 令 集 计算 机 ) ， 将 以 前 的 计算 机 称 为 CI SC。 这 
就 好 比 世上 本 没有 旧 中 国 ， 只 是 新 中 国 出 现 了 ,， 才 有 了 旧 中 国 。CISC 
和 RISC 也 分 别 代 表 了 两 种 处 理 器 的 指令 集 类 型 。 

计算 机 发 展 早 期 ， 人 们 使 用 汇编 语言 编程 ， 自 然 更 喜欢 强大 和 好 
用 的 指令 集 ， 处 理 器 的 设计 人 员 于 是 将 指令 集 设计 得 更 强大 、 更 灵 
活 。 后 来 高 级 语言 出 现 ， 处 理 器 设计 人 员 又 在 指令 集中 增加 了 一 些 指 
令 集 和 特性 直接 完成 高 级 语言 对 应 的 某 些 功能 ， 如 复杂 的 寻 址 模式 ， 
直接 对 应 指针 的 运算 。 

那个 时 期 的 存储 器 既 昂贵 且 速 度 慢 ， 因 此 指令 使 用 了 变 长 编码 ， 
以 节约 存储 空间 。 由 于 一 条 指令 能 完成 很 多 的 功能 ， 对 内 存 的 访问 也 
减少 了 ， 这 样 也 减少 了 缓慢 的 存储 器 访问 对 程序 性 能 的 影响 。 

当下 还 在 使 用 的 最 出 名 的 CISC 指 令 集 是 Intel 的 x86 指 令 集 。 


3.2.2” ”RISC 时代 一 一 优化 配置 资源 ， 合 理 提升 效率 


上 世纪 70 年 代 中 叶 ，IBM 的 John Cocke 发 现 ， 很 多 时 候 ， 处 理 器 
提供 的 大 量 指令 集 和 复杂 寻 址 方式 并 不 会 被 编译 器 生成 的 代码 用 到 ， 
套用 当下 流行 的 二 八 定律 ， 那 就 是 20% 的 简单 指令 经 常 被 用 到 ， 它 们 
占 程 序 总 指令 数 的 80% ， 而 指令 系统 中 其 余 80% 复 杂 的 指令 则 很 少 使 

， 只 占 程序 总 指令 数 的 20%。 


一 些 专家 基于 这 种 思想 ， 将 指令 集 和 处 理 器 进行 了 重新 的 设计 ， 
在 新 的 设计 中 ， 只 保留 了 常用 的 简单 的 指令 ， 这 样 处 理 器 就 不 需要 浪 
费 太 多 的 晶体 管 去 做 那些 很 复杂 又 很 少 使 用 的 功能 。 典 型 的 例子 就 是 
Intel 的 x86 指 令 集 手 册 有 一 千 多 页 ， 而 一 般 的 RISC 处 理 器 指令 集 手 册 
则 只 有 二 、 三 百 页 。 

由 于 简单 指令 大 部 分 时 间 都 能 在 一 个 cycle 内 完成 ， 因 此 处 理 器 的 
频率 得 以 大 幅 提 升 。 这 个 时 期 为 了 更 好 地 实现 流水 线 ， 指 令 集 采用 了 
定 长 编码 ， 这 样 指令 的 译 码 过 程 就 简单 了 。 

由 于 指令 集 更 精简 ， 这 种 思想 的 指令 集 就 叫 RISC 指 令 集 ， 以 前 的 
指令 集 就 叫 CISC 指 令 集 。RISC 是 计算 机 历史 上 的 一 个 飞跃 ，RISC 先 
驱 之 一 Steven Przybylski 半 开玩笑 地 把 RISC 定 义 为 :“1985 年 之 后 发 布 
的 所 有 处 理 器 ”。ARM、MIPS、Power、DSP 等 都 属于 RISC 体 系 ， 其 
中 MIPS 最 遵守 RISC 规 则 。 

IBM、 加 州 大 学 伯克利 分 校 的 David Patterson、 斯 坦 福 大 学 的 John 
Hennessy 是 RISC 研 究 的 先驱 ， 后 来 很 多 商业 的 处 理 器 都 受到 他 们 的 影 
响 ，Power 处 理 器 来 自 IBM，PowerPC 处 理 器 起 源 于 Power，ARM、 
SPARC 处 理 器 受到 伯克利 RISC 的 影响 ，MIPS 来 自 斯 坦 福 ，Alpha 处 理 


器 受到 它 的 影响 。 
商业 处 理 器 受到 前 期 RISC 三 派 的 影响 
3.2.3 ”后 RISC 时 代 一 不 管 黑 猫 白 猫 ， 抓 到 老 己 就 是 好 猫 


RISC 处 理 器 通过 更 合理 的 微 染 构 ， 在 性 能 上 超越 了 传统 的 CISC,， 
在 最 初 的 较量 中 ，Ptel 处 理 器 败 下 阵 来 ， 服 务 器 的 处 理 器 大 部 分 被 


Power 


PowerPC 


RISC 阵 营 所 占据 。 在 PC 领域 ， 由 于 众多 的 应 用 软件 要 求 处 理 器 后 向 兼 
容 ， 因 此 Intel 的 地 位 暂时 没有 动摇 。 

Intel 当 时 也 尝试 做 RISC 处 理 器 ， 但 是 因为 兼容 性 问题 ， 市 场 不 买 
账 。《 非 诚 勿 扰 2》 中 有 句 经典 台 词 :“ 婚 姻 怎 么 选 都 是 错 ， 长 久 的 婚 
姻 就 是 将 错 就 错 。” 秉 持 这 一 理念 ，Itel 决 定 一 条 路 走 到 黑 ， 将 兼容 性 
进行 到 底 ， 但 是 CISC 架 构 很 难 提升 性 能 的 压力 却 仍然 摆 在 Intel 面 前 。 
不 过 世界 上 没有 什么 迈 不 过 去 的 坎 ， 任 何 困 难 都 有 解决 的 方法 ，Intel 
终于 在 Pentium Pro 处 理 器 问世 时 解决 了 这 一 问题 。 

David B. Papworth 和 他 的 同事 一 起 设计 了 Pentium Pro 处 理 器 ， 它 
的 微 架 构 是 Intel 著 名 的 P6， 在 很 多 教科 书 上 都 会 介绍 。 在 这 个 处 理 器 
中 ，x86 指 令 集 被 先 解 码 为 类 似 于 RISC 指 令 的 微 操作 

(microoperations， 简 称 为 uops) ， 以 后 的 执行 过 程 采用 RISC 内 核 ， 
这 种 架构 一 直 延 续 至 今 ， 成 为 一 代 经 典 。CISC 这 种 古老 的 架构 ， 通 过 
巧妙 的 设计 ， 又 一 次 焕发 新 春 ， 可 以 说 是 老 树 发 新 芽 的 典范 ， 
Papworth 也 因此 在 Intel 内 获得 很 多 奖项 ， 成 为 Intel Fellow。 


这 种 处 理 器 结构 相 较 于 没有 兼容 
性 压力 的 纯 RISC 处 理 器 要 复杂 ， 但 
好 在 有 兼容 性 的 优势 来 保证 市 场 。 
80、90 年 代 ， 服 务 器 厂商 很 多 ,不 少 。 于 全 
服务 器 厂商 都 自己 生产 处 理 器 ， 而 生 解码 
产 处 理 器 是 个 烧 钱 的 行当 ， 如 果 没 有 : 村 
一 定 销量 的 保证 ， 就 会 得 不 偿 失 ， 这 村 
也 限制 了 处 理 器 芯片 的 研发 ， 而 Intel 
有 良好 的 PC 市 场 来 保证 研发 ， 因 此 
x86 处 理 器 的 性 能 逐渐 超过 了 同期 的 RISC 处 理 器 ， 抢 占 了 服务 器 市 
场 ， 导 致 其 他 的 处 理 器 厂商 只 能 向 低 功 耗 ， 或 面向 专 有 领域 的 嵌入 式 
方向 发 展 。 


“复杂 ”外 表 下 的 "简单" 芯 


RISC 和 CISC 都 是 时 代 的 产物 ， 也 无 所 谓 谁 好 谁 坏 。RISC 作 为 新 
兴 事 物 ， 在 很 多 思想 上 要 更 先进 ， 不 过 CISC 也 有 它 的 一 些 优点 。 

CISC 指 令 的 一 条 指令 常常 对 应 着 RISC 指 令 的 多 条 指令 ， 在 RISC 
处 理 器 中 ， 过 分 精简 的 指令 数量 ， 使 得 RISC 处 理 器 与 存储 器 之 间 的 数 
据 交 换 增 多 ， 而 存储 器 的 工作 速度 远 低 于 处 理 器 ， 很 容易 导致 性 能 恶 
化 。 

增加 处 理 器 性 能 的 一 种 方法 就 是 多 提供 指令 功能 ，RISC 中 的 “ 精 
简 指 令 ” 也 越 来 越 变 得 不 精简 。x86 处 理 器 近 几 年 逐渐 增加 了 几 百 条 
MMX、 SSE 指令， 用 于 提高 多 媒体 程序 和 其 他 特殊 程序 的 性 能 。 
DSP、ARM、MIPS 等 处 理 器 每 代 也 会 增加 不 少 的 指令 ， 用 于 完成 特殊 
的 任务 ， 哪 怕 是 这 些 功 能 很 少 被 使 用 。 

传统 的 RISC 指 令 集 为 了 译 码 方便 ， 指 令 采 用 定 长 编码 ， 因 此 程序 
空间 较 大 ， 虽 然 存 储 成 本 相对 较 低 ， 但 是 在 很 多 应 用 下 ， 程 序 空间 较 
大 会 降低 Cache 的 命中 率 ， 降 低 程序 的 执行 效率 。 

TI C64 DSP 采 用 定 长 指令 编码 ， 每 个 指令 32bit， 而 在 它 的 升级 版 
本 C64 十 内 核 中 ， 就 将 一 些 指 令 改 为 16bit， 这 样 大 大 减少 了 程序 长 
度 。Tensilica 公 司 的 可 配置 处 理 器 内 核 Xtensa 也 是 采用 16bit/24bit 的 指 
令 长 度 ， 同 样 的 例子 还 有 MIPS、ARM 等 处 理 器 ，ARM 的 Thumb 指 令 
集 就 是 16bit 的 ， 这 种 简单 的 变 长 指令 集 ， 并 没有 增加 多 少 译 码 电路 ， 
不 过 却 能 大 幅度 减少 程序 空间 和 功 耗 。 


变 长 编码 指令 能 节省 指令 空 
下 表 描 述 了 CISC 指 令 集 、RISC 指 令 集 、 后 RISC 指 令 集 的 一 些 特 
性 对 比 。 


s 间 


CISC RISC 后 RISC 


指令 数目 几 百 个 小 于 100 个 几 百 个 

寻 址 方式 复杂 简单 简单 

指令 周期 变化 很 大 大 部 分 lcycle 大 部 分 lcycle 
指令 长 度 变 长 定 长 简单 的 变 长 
程序 所 需 指 令 数 少 多 多 

寄存 器 数目 少 多 多 

是 杏 利于 流水 不 利于 利于 利于 


CISC、RISC、 后 RISC 指 令 集 的 区 别 列表 


总 结 

处 理 器 指令 集 呈现 出 螺旋 式 的 发 展 : 逐渐 做 大 ， 然 后 优化 ， 然 
后 又 做 大 .…… 从 量变 到 质变 ， 然 后 进入 下 一 轮 的 量变 和 质变 ， 只 是 此 
“ 质 " 已 非 彼 “ 质 ”了 。 


性 能 


量变 引发 质变 


| 后 RISCHT 代 
兼 窑 并 苹 继 续 发 展 
指令 集 


优化 指令 集结 构 和 
处 理 器 微 架 构 、 提 
启 人 


El 性 能 


幅 放 式 的 增加 指令 
和 指令 的 复杂 性 


缘 令 集 发 展 历史 


指令 集 发 展 历程 
3.3 “指令 集 的 五 洒 金 花 


处 理 器 公司 很 多 ， 品 牌 也 很 多 ， 而 指令 集 则 相对 稳定 ， 用 指令 集 


对 处 理 器 公司 分 类 是 比较 常见 的 做 法 。 有 5 种 指令 集 最 为 常见 ， 它 们 构 
成 了 处 理 器 领域 的 5 打 金 伦 。 


3.3.1 x86 一 一 硕大 的 大 象 


x86 是 史上 最 赚钱 的 指令 集 ， 几 乎 所 有 的 个 人 计算 机 都 使 用 x86 指 
令 集 的 处 理 器 。 

1978 年 ，Intel 推 出 8086、8088 处 理 器 ，IBM-PC 采 用 8088 作 为 其 计 
算 机 的 大 脑 。1982 年 ，Intel 推 出 80286 ，IBM PC/AT (Advanced 
Technology) 选择 其 作为 自己 的 处 理 器 。 从 此 以 后 ，IBM-PC 兼 容 机 几 
乎 都 采用 Itel 的 处 理 器 。Intel 也 陆续 推出 386、486、 奔 腾 等 处 理 器 ， 
x86[ 因 此 而 得 名 。 

由 于 IBM 在 选择 供应 商 时 为 减少 未 来 风险 ， 要 求 至 少 有 两 家 公司 
同时 提供 产品 ， 因 此 Intel 将 x86 架 构 开 放 给 了 AMD (AMD 和 Intel 的 创 
始 人 同 出 于 仙 童 半导体 ) ， 从 此 ，Intel 和 AMD 垄 断 了 个 人 计算 机 处 理 
器 市 场 。 由 于 AMD 也 采用 x86 体 系 结构 ，Intel 为 以 示 区 分 ， 后 来 在 自 
己 的 官方 材料 中 用 IA (Intel Architecture) 来 替代 x86， 不 过 业界 还 是 
喜欢 用 x86 这 个 名 字 。 

这 些 年 来 ，Intel 和 AMD 将 更 多 的 指令 和 功能 塞 进 这 个 陈旧 的 指令 
集 架 构 中 ， 使 得 它 越 来 越 脓肿 ， 远 不 及 后 来 发 展 起 来 的 其 他 指令 集 优 
雅 。 不 过 ， 软 件 的 兼容 性 比 技术 更 重要 ，x86 成 为 个 人 计算 机 的 事实 标 
准 ， 以 及 它 拥 有 最 广泛 的 程序 资源 和 程序 员 资 源 ， 使 得 Intel 和 AMD 有 
大 量 的 利润 来 保证 其 研发 经 费 ， 将 更 多 的 先进 技术 融入 到 处 理 器 中 。 


因此 ， 昌 然 x86 指 令 集 相 对 于 其 他 处 理 器 指令 集 要 腔 肿 ， 但 是 这 并 不 妨 
碍 x86 处 理 器 极 高 的 处 理性 能 。 

Intel 处 理 器 开发 有 一 个 非常 著名 的 tick-tock (工艺 年 ， 架 构 年 ) 战 
略 。Tick-Tock 就 是 时 钟 的 * 跑 哄 ”， 一 个 咬 噶 代表 着 一 秒 ， 而 在 Inte] 的 
处 理 器 发 展 战略 上 ， 每 一 个 跑 哄 代表 着 两 年 一 次 的 处 理 器 升级 。 处 理 
器 有 两 大 核心 技术 ， 一 是 芯片 制程 工艺 (32nm、22nm 等 ) ; 二 是 处 
理 器 微 架构 。Intel 称 它们 在 制程 工艺 和 微 架 构 上 保持 领先 。 制 程 工艺 
决定 了 芯片 内 部 可 以 使 用 的 晶体 管 的 数目 ， 晶 体 管 数 目 越 多 ， 则 芯片 
能 完成 的 任务 也 越 多 。 处 理 器 微 架 构 决 定 了 怎么 合理 的 利用 这 些 晶体 
管 ， 来 搭建 最 适合 具体 应 用 的 处 理 器 。 

Tick-Tock 战 略 中 ，Tick (两 年 周期 中 的 第 一 年 ) 代表 着 制程 工艺 
的 提升 、 晶 体 管 变 小 ，Tock (两 年 周期 中 的 第 二 年 ) 是 在 维持 相同 工 
艺 的 前 提 下 ， 推 出 新 的 处 理 器 微 架 构 。 这 样 在 工艺 和 微 架构 的 两 条 提 
升 道路 上 ， 总 是 交替 进行 ， 一 方面 避免 了 同时 革新 可 能 带 来 的 失败 风 
险 ， 同 时 也 加 快 了 新 产品 的 发 布 周 期 ， 并 最 终 提升 产品 的 竞争 力 。 
Intel 这 种 轮番 式 的 进攻 方式 让 竞争 对 手 喘 不 过 气 来， 服务 器 处 理 器 纷 
纷 倒 台 ， 大 多 数 服务 器 都 投入 到 Intel 的 怀抱 。 


Intel Tick-Tock 
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Intel 的 Tick-Tock 战 略 


3.3.2 ARM 一 一 稳扎稳打 的 蚁 群 


如 果 要 问 哪个 指令 集 的 处 理 器 销量 最 大 ， 很 多 人 会 认为 是 Intel， 
不 过 一 家 来 自 英国 的 公司 让 我 们 大 跌眼镜 ， 这 家 公司 就 是 ARM 公 司 。 

ARM 公 司 从 糊 藉 无 名 到 风 生 水 起 也 不 过 就 是 十 几 年 时 间 ，ARM 
占据 了 手机 市 场 90% 以 上 的 份额 ， 可 以 说 ，ARM 是 伴随 着 手机 一 起 繁 
菏 起 来 的 。 手 机 上 的 应 用 处 理 器 ， 不 管 是 高 通 还 是 TI 的 ， 东 之 还 是 三 
星 的 ， 在 内 部 都 采用 了 ARM 内 核 。 

ARM 架 构 属 于 ARM Holdings， 这 是 一 家 总 部 位 于 英国 剑桥 的 公 
司 。 这 家 公司 是 在 1990 年 由 Acorn Computers、 苹 果 、VLSI Technology 
合资 组 建 的 ( 引 自 ARM 网 站 ) 。 第 一 代 ARM 处 理 器 (ARM1) 最 早 可 
追溯 到 1983 年 10 月 ，Acom 启 动 了 代号 为 Acorn RISC 的 项 目 ， 由 VLSI 
Technology 负 责 生 产 。1985 年 4 月 26 日 ，VLSI 生 产 出 第 一 颗 Acom RISC 
处 理 器 ， 即 ARM1。 

ARM 和 x86 可 以 说 是 处 理 器 领域 商业 上 最 成 功 的 两 个 架构 ，ARM 
只 是 一 家 小 公司 ， 它 的 人 数 不 到 2000 人 ，ARM 架 构 之 所 以 这 么 受 欢 
迎 ， 在 于 它 从 设计 之 初 就 将 低 功 耗 、 低 成 本 的 优先 级 放 在 了 高 性 能 的 
前 面 。 

在 《三 国 演义 》 中 ， 刘 备 向 庞统 讲述 了 自己 为 什么 能 从 一 个 卖 草 
鞋 的 ， 成 长 为 三 分 天 下 的 诸侯 。 他 说 :“ 今 与 吉水 火 相 政 者 曹操 也 。 曹 
以 急 ， 吾 以 宽 ; 曹 以 暴 ， 吾 以 仁 ; 曹 以 诵 ， 吾 以 忠 ; 每 与 操 相 反 ， 事 
力 可 成 。” 其 中 “每 与 操 相 反 ， 事 乃 可 成 ”是 其 中 的 关键 。x86 就 是 处 理 
器 领域 的 曹操 ， 实 力 雄 厚 ， 处 理 器 性 能 高 。 与 x86 竞 争 的 面向 高 性 能 的 
处 理 器 都 逐渐 退出 了 历史 舞台 ， 而 ARM 却 与 x86 相 反 ， 侧 重 于 低 功 
耗 、 低 成 本 ， 虽 然 技 术 实力 存在 不 小 的 差距 ， 却 活 得 很 滋润 。 

ARM 公 司 自 己 不 生产 心 片 ， 而 是 向 半导体 公司 提供 指令 集 授 权 、 
内 核 授 权 ， 其 他 公司 使 用 ARM 的 处 理 器 内 核 设计 生产 自己 的 处 理 器 芯 


片 。 全 球 很 多 半导体 厂商 都 使 用 它 的 内 核 ， 这 些 厂商 每 年 设计 和 销售 
的 ARM 处 理 器 达到 40 多 亿 颗 (数字 引 自 ARM 中 国 网 站 ， 每 年 都 会 增 
多 ) 。ARM 处 理 器 之 所 以 有 这 么 大 的 销量 ， 原 因 在 于 它 面 向 的 是 语 入 
式 市 场 。 容 入 式 市 场 比 个 人 计算 机 市 场 拥 有 更 大 的 使 用 量 ， 一 个 家 庭 
通常 只 要 一 台电 脑 ， 而 一 个 人 至 少 需 要 一 部 手机 ， 一 个 家 庭 每 4 年 换 一 
次 电脑 ， 一 个 人 每 两 年 就 要 换 一 次 手机 。 除 此 之 外 ， 机 项 盒 、 数 字 电 
视 、 家 用 Soho 路 由 器 等 领域 都 会 使 用 ARM 内 核 的 处 理 器 。 


3.3.3 ” MIPS 一 一 优雅 的 孔雀 


如 果 要 说 最 经 典 的 RISC 处 理 器 ， 那 么 非 MIPS 莫 属 ， 就 连 它 的 竞 
争 对 手 ， 也 不 得 不 承认 它 的 优雅 ， 它 被 作为 处 理 器 教科 书 的 典范 ， 很 
多 其 他 的 处 理 器 ， 都 能 看 到 它 的 身影 。 

MIPS 全 称 为 Microprocessor without Interlocked Piped Stages， 无 内 
部 互 锁 流 水 级 的 微 处 理 器 。MIPS 是 由 计算 机 界 的 大 牛 John L. Hennessy 
领导 的 小 组 在 1981 年 开始 设计 的 ， 当 时 他 是 assistant professor。 1984 
年 ，Hennessy 和 其 他 人 一 起 创立 了 MIPS Computer Systems， 开 始 推出 
商用 的 MIPS 处 理 器 。Hennessy 后 来 当 上 了 斯 坦 福 大 学 校长 ， 并 是 IEEE 
和 ACM 院 士 ， 还 是 美国 国家 工程 研究 院 院 士 及 美国 科学 艺术 研究 院 院 
士 。 他 因为 在 RISC 技 术 方面 做 出 了 突出 贡献 而 荣获 2001 年 的 Eckert- 
Mauchly 奖 章 ，Eckert 和 Mauchly 就 是 ENIAC 的 两 个 发 明 人 。 了 Hennessy 
也 是 2001 年 Seymour Cray 计 算 机 工程 奖 得 主 ， 并 且 和 RISC 另 一 个 先驱 
David A. Patterson 分 享 了 2000 年 冯 : 诺 依 曼 奖 。 

MIPS 初 期 ，MIPS 处 理 器 的 主要 客户 是 一 些 工作 站 公司 。1991 
年 ， 大 约 20 个 公司 坐 在 一 起 开 武 林 大 会 ， 想 要 成 立 一 个 名 为 高 级 计算 
机 环境 (ACE) 的 联盟 ， 与 会 公司 包括 Compaq、Microsoft、DEC、 
MIPS 等 。ACE 的 宗旨 是 使 未 来 的 Unix、Windows 软 件 能 运行 在 任 一 一 
款 使 用 x86、MIPS CPU 的 机 器 上 ， 这 实际 上 就 是 想 力 挺 MIPS。 不 过 
ACE 联盟 事实 上 并 不 成 功 ，MIPS 的 主要 客户 之 一 DEC 决定 下 一 代 工 作 


站 使 用 自己 的 Alpha 处 理 器 ， 于 是 SGI 成 为 MIPS 的 最 大 用 户 。1993 年 ， 
MIPS 已 经 很 难 撑 下 去 了 ，SGI 为 了 保证 自己 的 心 片 供应 ， 只 好 出 手 收 
购 了 MIPS。 

SGI 的 工作 站 在 90 年 代 后 半期 开始 亏损 ， 不 可 避免 地 影响 了 对 
MIPS 的 投资 ， 而 PC 市 场 的 莲 邦 发 展 使 得 Intel/ 有 大 量 的 资金 进行 处 理 器 
研发 。 在 这 个 背景 下 ，SGI 取 消 了 MIPS CPU 的 研究 ， 而 公开 承诺 将 采 
用 Intel 的 安 腾 处 理 器 。 但 是 令 SGI 大 跌眼镜 的 是 ， 安 腾 处 理 器 叫好 不 叫 
座 ， 因 为 它 使 用 新 的 指令 集 ， 和 x86 不 兼容 ， 销 量 远 低 于 Intel 的 最 悲观 
估计 。SGI 在 选择 处 理 器 时 ， 真 是 倒霉 到 家 了 。 

1998 年 ，SGI 面 临 着 日 益 增 长 的 资金 问题 ， 于 是 分 离 了 CPU 设计 
部 门 ， 重 新 成 立 了 MIPS technologies 公 司 。2006 年 ，SGI 这 个 OpenGL 
最 初 的 创立 者 宣布 破产 。 

现在 的 MIPS 公 司 商 业 模 式 和 ARM 类 似 ， 以 出 售 指令 集 授权 和 处 
理 器 内 核 授 权 鳃 利 ， 基 于 MIPS 架 构 的 处 理 器 在 通信 和 领域 有 一 定 的 市 
场 ，Broadcom、Cavinum 等 公司 使 用 MIPS 内 核 。 

MIPS 处 理 器 本 来 也 算是 比较 经 典 的 处 理 器 ， 不 过 却 站 错 了 队 。 
MIPS 长 期 以 来 一 直 侧 重 于 高 性 能 ， 面 向 服务 器 和 工作 站 市 场 ， 但 是 它 
受到 了 x86 处 理 器 的 猛烈 狙击 ， 等 到 MIPS 回 过 头 来 做 低 功 耗 时 ， 已 经 
无 法 撼动 ARM 在 做 入 式 市 场 中 先入 为 主 的 地 位 了 。 

虽然 MIPS 在 商业 上 远 不 如 Intel、ARM 等 公司 成 功 ， 不 过 它 的 学 术 
地 位 很 高 。 一 方面 是 因为 它 的 设计 确实 经 典 ， 被 很 多 处 理 器 吸收 其 思 
想 ， 第 二 个 原因 是 美国 大 学 计算 机 体系 结构 课程 采用 的 教科 书 都 是 由 
RISC 先 驱 Hennessy 和 Patterson 合 著 的 ， 他 们 在 书 中 以 MIPS 为 原型 进行 
讲解 。MIPS 毕 竟 使 用 的 人 少 ， 后 来 Hennessy 和 Patterson 又 与 时 俱 进 ， 
在 教科 书 中 增加 了 x86 处 理 器 的 描述 。 


3.3.4 Power 昔日 的 贵族 


最 早 提出 RISC 思 想 的 是 IBM 公 司 ，1990 年 ，IBM 推 出 了 高 性 能 的 
POWER 《Performance Optimized With Enhanced RISC) 处 理 器 。 
POWER 性 能 卓越 ， 一 直 以 来 都 被 用 在 IBM 自 己 的 服务 器 上 。1997 年 与 
国际 象棋 大 师 卡 斯 帕 罗 夫 交 战 的 深蓝 计算 机 ， 使 用 POWER2 处 理 器 ， 
2011 年 参加 知识 竞赛 电视 节目 “Jeopardy! ”挑战 人 类 的 Watson 计 算 机 ， 
使 用 的 是 POWER7 处 理 器 。 

由 于 POWER 的 高 性 能 ，IBM 想 到 可 以 将 POWER 用 于 PC 领域 ， 
此 IBM 向 Apple 扫 了 橄榄 枝 ，Apple 当 然 求 之 不 得 。Apple 一 直 都 使 用 
Motorola 的 处 理 器 ， 因 此 Apple 又 把 Motorola 拉 下 了 水 。 这 3 家 公司 一 拍 
即 合 ， 富 有 传奇 色彩 的 三 大 巨头 ， 同 时 又 是 在 PC 时 代 只 能 赚 吃 喝 的 3 
个 难 兄 难 弟 终于 结拜 在 了 一 起 ， 于 1991 年 成 立 了 AIM 联 盟 (AIM 为 
Apple、IBM、Motorola 的 3 个 首 字母 ) 。AIM 对 POWER 处 理 器 进行 了 
修改 ， 于 是 就 形成 了 PowerPC，PC 是 Performance Computing 的 缩写 。 

想 当 初 ， 苹 果 和 IBM 是 两 个 死对头 ， 在 个 人 计算 机 市 场 打 得 你 死 
我 活 ， 而 如 今 为 了 共同 的 利益 ， 对 付 Wintel 联 盟 ， 它 们 又 走 到 了 一 
起 ， 可 见 ， 在 商场 上 ,没有 永远 的 对 手 ， 只 有 永远 的 利益 。 

PowerPC 处 理 器 上 市 时 ， 性 能 要 强 于 同期 的 x86 处 理 器 ， 微 软 、 
IBM、Sun 等 公司 为 PowerPC 开 发 了 操作 系统 ， 但 是 众多 的 小 公司 却 不 
可 能 再 为 PowerPC 重 新 开发 应 用 软件 ， 由 于 缺乏 应 用 软件 ，PowerPC 
难以 在 PC 市 场 维持 生计 。Motorola 的 半导体 部 门 长 期 亏损 ，2004 年 ， 
Motorola 将 其 半导体 部 门 分 拆 出 来 ， 成 立 了 Freescale。2005 年 ，Apple 
宣布 以 后 采用 x86 处 理 器 ，AIM 联 盟 终于 解散 。 

AIM 联 盟 虽 然 散 了 ， 但 是 IBM-Freescale 联 盟 却 还 存在 。IBM 的 
POWER 和 PowerPC 侧 重 于 服务 器 、 游 戏 机 领域 ， 如 任天堂 、 索 尼 、 微 
软 的 游戏 机 ，Freescale 的 PowerPC 侧 重 于 内 入 式 市 场 ， 如 通信 、 汽 车 
电子 等 。 

目 令 集 的 战争 已 经 打响 ，ARM 阵 营 拥 有 大 量 的 半导体 公司 及 软件 
公司 ，MIPS 也 有 不 少 ， 而 Power 阵 营 则 主要 是 IBM 和 Freescale 孤 军 作 


战 。2004 年 ，IBM 发 起 了 Power.org 联 盟 ，Power.org 发 布 了 统一 的 指令 
集体 系 结构 ， 将 POWER 和 PowerPC 体 系 结构 统一 到 新 的 Power 体 系 结 
构 中 。Power.org 联 盟 由 IBM 和 Freescale 组 成 的 Power Architecture 顾 问 委 
员 会 负责 管理 架构 路 线 图 ， 协 调 Power 架 构 技 术 ， 使 得 从 低 成 本 到 高 
性 能 的 应 用 均 能 使 用 无 颖 兼容 的 指令 集 。 除 了 开放 了 指令 集 外 ，IBM 
也 开始 向 外 提供 内 核 授 权 ， 让 更 多 的 公司 加 入 到 Power.org 联 盟 中 。 


3.3.5 ”C6000 一 一 偏 安 一 隅 的 独立 王国 


以 上 介绍 的 这 些 处 理 器 ， 都 是 较 通 用 的 处 理 器 ， 还 有 一 种 较 专 业 
的 处 理 器 ， 它 的 名 字 叫 DSP (Digital Signal Processor， 数 字 信 号 处 理 
器 ) ， 专 业 做 信号 处 理 运算 的 。 

这 几 年 ， 全 球 的 无 线 通信 网 络 建设 如 火 如 茶 ， 视 频 网 站 、 视 频 通 
信和 系统 也 如 雨后春笋 般 涌 现 出 来 ， 在 这 些 产品 或 服务 的 背后 ， 一 个 是 
无 线 通 信 技 术 ， 一 个 是 音 视频 技术 ， 这 二 者 的 共同 点 在 于 : 它们 都 需 
要 大 量 的 信号 处 理 运 算 ， 而 这 正 是 DSP 的 强项 。 

20 世 纪 80 年 代 初 ，Motorola 和 TI (德州 仪器 ) 都 推出 了 自己 的 手 
机 DSP 心 片 ，Motorola 要 强 于 TI， 但 由 于 Motorola 的 心 片 只 给 自己 的 手 
机 用 ， 诺 基 亚 、 爱 立信 等 公司 选择 了 TI， 从 此 成 就 了 TI。 

现在 的 DSP 心 片 主要 由 TI、Freescale、LSI 等 公司 推出 ，TI DSP 一 
家 独 大 ， 占 据 绝 大 部 分 市 场 份额 。TI 也 是 半导体 领域 的 先驱 之 一 ， 第 
一 块 集成 电路 的 发 明 人 、 诺 贝尔 奖 得 主 Jack Kilby 就 来 自 于 TI。 

C6000 系 列 DSP 是 TI 的 高 端 DSP，C62/C64/C64 十 是 定点 DSP 内 
核 ，C67 是 浮 点 DSP 内 核 ，C66 是 定点 二 浮 点 融合 的 内 核 。 

与 C6000 直 接 竞 争 的 ， 是 Starcore 体 系 结构 ， 最 早 由 Infineon、 
Agere、Motorola 的 合资 公司 设计 ， 公 司 经 过 多 年 的 分 与 合 之 后 ， 目 前 
这 个 体系 结构 的 DSP 由 Freescale 和 LSI 推 出 。 


3.3.6 ”至 今 仍 在 服役 的 元 老 们 


在 常用 的 指令 集中 ， 当 属 x86 资 历 最 老 ， 它 是 GISC 指 令 集 ， 发 布 
于 1978 年 ， 其 他 的 几 种 指令 集 都 是 RISC 指 令 集 ， 属 于 它 的 下 一 代 。 
x86 的 元 老 当 属 8086，8086 在 现在 几乎 是 没有 人 用 了 ， 不 过 与 之 同时 代 
的 一 些 处 理 器 到 现在 还 在 发 光 发 热 。 

8051 这 个 单片机 中 的 经 典 ， 由 Intel 在 1980 年 开发 ， 后 来 授权 给 了 
很 多 其 他 的 公司 ， 现 在 还 在 很 多 领域 使 用 着 。 

还 有 一 款 处 理 器 寿命 更 长 ， 它 就 是 MOS Technology 在 1975 年 设计 
的 6502 处 理 器 。6502 是 由 Motorola 6800 原 班 人 马 独 立 后 出 去 设计 的 ， 
后 来 被 用 在 了 苹果 的 apple 1| 电脑 上 。 多 年 前 ， 当 我 在 一 家 公司 做 电子 
词典 时 ， 使 用 的 就 是 6502 处 理 器 ，6502 真 是 老 当 益 壮 啊 。 


3.4 ”地盘 之 争 


“世界 潮流 ， 浩 浩 沪 水， 顺 之 者 昌 ， 逆 之 者 亡 。” 
孙中山 


对 酒 当 歌 ， 人 生 几 何 ， 行业 纷争 ， 去 日 苗 多 。 

每 天 早上 ， 一 只 非洲 羚羊 醒 来 ， 它 就 知道 要 比 跑 得 最 快 的 非洲 雄 
狮 还 要 快 ， 否 则 它 就 会 被 吃 掉 ， 每 天 早上 ， 一 只 非洲 雄 狮 醒 来 ， 它 就 
知道 必须 比 跑 得 最 慢 的 羚羊 要 快 ， 否 则 它 就 会 饿 死 。 不 管 你 是 狮子 还 
是 羚 手 ， 太 阳 升 起 的 时 候 你 融 得 开始 路 了。 同样 的 一 幕 在 处 理 器 行业 
也 一 样 发 生 着 。 

处 理 器 饥 布 于 我 们 生活 中 的 每 一 个 角落 ， 电 脑 、 汽 车 、 手 机 、 
MP3、 洗 衣 机 、 数 探 机床、 马达、 硬盘、 电梯 等 领域 无 不 用 到 处 理 
器 ， 全 球 每 年 销售 的 处 理 器 数目 超过 了 人 口 总 数 。 


处 理 器 无 处 不 在 


3.4.1 ”地 盘 划 分 


处 理 器 应 用 在 PC、 服 务 器 、 骨 入 式 这 三 大 领域 ， 各 个 指令 集 阵营 
都 有 其 各 自 的 地 盘 。 


指令 集 阵营 应 用 地 图 


在 服务 器 领域 ， 早 些 年 RISC 阵 营 的 处 理 器 较为 流行 ， 如 SUN 公 司 
的 SPARC、DEC 公 司 的 Alpha、HP 的 PA-RISC 等 ，Intel 也 推出 了 自己 的 
RISC 处 理 器 Itanium。 现 在 随 着 x86 性 能 的 逐渐 增强 ， 同 时 拥有 兼容 性 
的 巨大 优势 ， 使 得 绝 大 部 分 服务 器 都 采用 x86 处 理 器 ， 尤 其 是 Intel 的 
x86 处 理 器 。 虽 然 ，IBM 的 高 端 服 务 器 采用 自己 的 Power 处 理 器 ， 不 过 
也 面临 着 x86 的 强烈 冲击 。 

在 PC 领域 ， 没 有 悬念 的 是 x86 的 天 下 ， 被 mtel 和 AMD 垄 断 ， 第 三 
者 没 法 插足 。 

俯 入 式 领 域 的 王者 当之无愧 的 是 ARM， 其 他 每 个 公司 也 都 有 自己 
的 一 块 领地 。 


3.4.2 x86、ARM 之 战 


PC 是 x86 的 地 盘 ， 手 机 等 移动 终端 是 ARM 的 地 盘 ， 而 现在 ，PC 和 
移动 终端 的 界限 已 经 分 不 清 了 。 界 限 不 明 ， 就 容易 引发 纷争 ， 就 好 像 
国家 之 间 的 边境 问题 一 样 ， 版 图 交界 的 两 个 国家 ， 都 想 扩 大 自己 的 地 
盘 。 同 样 ，x86 和 ARM 也 都 在 向 对 方 的 地 盘 渗 透 。 

上 网 本 是 PC 和 移动 终端 的 中 间 地 带 ， 这 也 正 是 它们 争夺 最 为 激烈 
的 地 方 。Intel 推 出 低 功 耗 的 Atom 处 理 器 ， 配 合 Windows 操 作 系 统 ， 将 
上 网 本 作为 PC 的 延续 ， 而 ARM 阵 营 的 高 通 、TI、Freescale 等 ， 也 都 推 
出 了 基于 ARM 的 处 理 器 ， 配 合 Android 操 作 系统 ， 将 上 网 本 作为 手机 
的 延续 。 


x86+Windows 孟 营 ARM+Android 阵 营 


Wintel 联 盟 Vs“ 双 A” 联 盟 
3.4.3 ARM、MIPS 之 战 


由 于 ARM 公 司 和 MIPS 公 司 的 商业 模式 相同 ， 因 此 它们 也 经 常 被 
人 们 拿 来 作对 比 。 很 长 一 段 时 间 内 ， 在 处 理 器 本 身 的 技术 路 线 上 ， 
MIPS 要 强 于 ARM， 但 是 在 商业 上 ，ARM 要 更 强 一 些 。 

设计 ARM 的 原始 想法 完全 来 自 于 MIPS 研 究 小 组 发 表 的 论文 ， 两 
位 优秀 并 敏感 的 英国 工程 师 Sophie Wilson 和 Steve Furber 看 到 论文 后 专 
门 跑 到 美国 去 参观 实习 了 一 把 ， 回 去 后 就 说 服 老板 开始 设计 ARM1。 
ARM 十 几 年 奢 砖 碰 碰 走 来 ， 从 ARM1 一 直 做 到 现在 的 Cortex， 其 中 有 
几 个 系列 取得 了 巨大 的 商业 成 功 : ARM7、ARM9、ARMI11 和 
CorteXo 

一 直到 2000 年 前 后 ，ARM 和 MIPS 两 个 公司 在 业务 规模 上 还 是 基 
本 旗 鼓 相当 的 ， 差 距 出 现在 之 后 的 IT 泡 沫 破灭 ，MIPS 的 地 盘 在 电信 和 
网 络 市 场 ， 受 到 了 惨重 的 打击 。 而 手机 日 渐 成 为 普通 消费 品 ， 因 此 
ARM 的 市 场 风 生 水 起 ， 从 此 这 两 家 公司 的 差距 增 大 。 

人 们 买 东西 都 会 有 一 个 特点 : 喜欢 去 人 多 的 地 方 买 。 越 拥挤 ， 就 

会 觉得 店 子 越 好 ， 就 越 要 挤 进去 。 股 市 也 有 类 似 的 一 句 话 ， 叫 : 追 涨 


杀 跌 。ARM 这 几 年 过 的 是 越 来 越 好 ， 而 MIPS 的 发 展 则 相差 甚 远 。 
现在 MIPS 和 ARM 的 市 场 定位 有 大 量 的 重合 ， 它 们 之 间 的 竞争 将 
会 更 加 激烈 。 


3.5 “汇编 语言 格式 一 一 没有 规矩 不 成 方圆 


我 对 上 帝 说 西班牙 语 ， 
对 女人 说 意大利 语 ， 
对 男人 说 法 语 ， 
对 我 的 马 说 德语 。 

一 一 查理 五 世 ， 法 国 国王 


有 这 样 一 个 笑话 : 中 国 留 学 生 在 国外 的 高 速 公路 出 车 祸 了 ， 连 人 
带 车 翻 下 悬崖 ， 交 警 赶 到 后 向 下 喊话 :“How are you? ”留学 生 回 答 : 
“Im fine，thank you.” 然 后 交警 就 走 了 ， 留 学 生 于 是 死 了 。 

由 此 可 见 ， 语 言 是 很 重要 的 ， 程 序 员 学 习 处 理 器 的 语言 也 是 很 重 
要 的 ， 一 来 可 以 更 了 解 处 理 器 ， 二 来 在 某 些 领域 ， 如 从 事 破 解 的 ， 都 
需要 知道 一 些 汇编 知识 。 


3.5.1 ”机 器 字 长 


机 器 字 长 表示 处 理 器 一 次 处 理 数 据 的 长 度 ， 主 要 由 运算 器 、 寄 存 
器 决定 ， 如 32 位 处 理 器 ， 每 个 寄存 器 能 存储 32bit 数 据 ， 加 法 器 支持 两 
个 32bit 数 进行 相 加 。 


32bit 寄 存 奉 32bit 寄 存 帝 


32bit 运 算 单元 


32bit 寄 存 帘 


32bit 字 长 机 器 


x86 指 令 集 的 鼻祖 是 1978 年 出 的 16 位 处 理 器 8086， 现 在 Intel 的 处 理 
器 都 是 32 位 /64 位 的 了 ， 但 是 仍然 能 兼容 传统 的 16 位 汇编 进行 编程 。 

32 位 处 理 器 的 地 址 总 线 通 常 都 是 32 位 ， 可 寻 址 范围 是 4Gbyte， 地 
址 总 线 越 宽 ， 可 寻 址 范围 越 大 。 通 常数 据 总 线 的 带宽 都 要 高 于 机 器 字 
长 ，32 位 处 理 器 很 多 都 采用 64bit、128bit 的 数据 带宽 ， 这 样 可 以 一 次 
读 取 更 多 的 数据 。 

目前 人 欢 入 式 处 理 器 大 都 以 32 位 为 主 ， 而 服务 器 和 PC 已 经 进入 了 64 
位 时 代 。 最 早 将 x86 扩 展 到 64 位 的 并 不 是 大 哥 Intel， 而 是 小 第 AMD。 
2003 年 ，AMD 推 出 Opteron 〈 插 龙 ) ， 这 是 第 一 款 含 x86-64 技 术 的 处 理 
器 。AMD x86-64 完 美的 兼容 性 和 不 错 的 性 能 赢得 了 一 片 喝 彩 ，Intel 立 
即 意识 到 了 问题 的 严重 性 ， 并 迅速 推出 了 自己 的 64 位 架构 一 一 
EM64T， 总 算是 扳 回 了 一 局 。 


32 位 x86 处 理 器 的 寄存 器 
63 3] 14 Fe 


X86-64 的 寄存 器 


机 器 字 长 起 始 年 代 代表 产品 
4 位 处 理 器 1971 Intel 4004 
8 位 处 理 器 1972 Intel 8008 
Motorola M6800 
MOS technology 6502 
| Zilog Z80 
16 位 处 理 器 1973 National Semiconductor IMP-16 
Intel $8086, $088 
Motorola M68000 
Zilog Z8000 
32 位 处 理 器 1980 Bell Labs BELLMAC-32A 
Intel 386， 奔 腾 
Motorola M68020 
TI C6000 DSP 
MIPS，ARM 等 
64 位 处 理 器 1991 MIPS R4000 
Alpha 21064 


Intel Itanium 


各 时 代 的 代表 处 理 器 


3.5.2 ”操作 数 个 数 


x86 处 理 器 由 于 设计 时 间 很 早 ， 那 个 时 候 晶 体 管 紧张 ， 寄 存 器 数目 
较 少 ， 因 此 指令 集 在 设计 时 ， 只 使 用 了 两 个 寄存 器 : 

ADD BX，AX; 源 和 目的 操作 数 共 用 一 个 寄存 器 。 

Intel 后 来 扩充 了 一 些 SSE 指 令 ， 有 些 SSE 指 令 也 使 用 3 个 操作 数 ，1 
个 源 操作 数 ，1 个 目的 操作 数 ， 还 有 1 个 操作 数 作 为 mask ( 掩 码 ) 使 
用 。 

后 来 的 RISC 指 令 集 ， 基 本 运算 都 使 用 了 3 个 操作 数 ，2 个 源 操作 
数 ，1 个 目的 操作 数 : 

ADD A1，A2，A3 


3.5.3 ”操作 数 顺 序 


在 x86 处 理 器 中 ， 目 的 操作 数 放 在 前 面 ， 在 C6000 DSP 中 ， 目 的 操 
作 数 放 在 最 后 。 

x86 指 令 格 式 : ADD BX，AX; 表示 将 BX 和 AX 的 值 相 加 ， 结 果 
放 到 BX 中 。 

C6000 DSP 指 令 格 式 : ADD A1l，A2，A3; 表示 将 A1 和 A2 的 值 
相 加 ， 结 果 放 到 A3 中 。 

MIPS 指 令 集 也 是 3 个 操作 数 ， 不 过 和 C6000 DSP 不 同 的 是 : 目的 
操作 数 是 第 一 个 操作 数 。 


3.5.4 ”大 小 端 一 一 小 问题 ， 大 折腾 


在 不 同 的 处 理 器 中 ， 相 同 的 数据 在 存储 器 中 的 存储 格式 可 能 不 一 
样 。 如 下 图 所 示 ， 数 值 0x12345678 在 大 端 字 节 序 和 小 端 字 节 序 处 理 器 
的 存储 器 中 存储 形式 分 别 为 : 


仓储 需 编 址 


大 小 端 存 储 

大 端 ”、 小 端 这 两 个 术语 来 源 于 小 说 《 格 利 弗 游记 》 (Gulliver's 
Travels) 。 小 人 国 里 的 小 人 们 分 成 了 两 大 阵营 : 一 派 况 破 鸡 蛋 “ 大 ”的 
一 头 吃 鸡 蛋 ， 一 派 敲 破 鸡 蛋 “ 小 ”的 一 头 吃 鸡蛋 。 其 实 怎 么 吃 都 没有 关 
系 ， 只 是 习惯 不 同 。 

Intel 的 x86 处 理 器 使 用 小 端 字 节 序 ， 很 多 处 理 器 既 可 以 配置 为 大 
端 ， 又 可 以 配置 为 小 端 ， 在 不 同 字 节 序 计算 机 之 间 通 信和 时 ， 就 需要 注 
意 数据 格式 的 转换 。 


3.5.5 ”指令 类 型 ”我们 需要 哪些 指令 


处 理 器 要 完成 计算 的 任务 ， 需 要 具备 哪些 指令 呢 ? 我 们 用 如 下 这 
个 计算 为 例 : 
count 
y= 区 COe 人 fi; * x 
i=] 
顺序 执行 


PP 
SA 
有 六 
vw 
让 
从 


和 

跳 转 回去 

循环 的 实现 

xi 为 输入 信号 ，coeff; 为 滤波 器 系数 。 要 让 处 理 器 完成 这 些 工 作 ， 
首先 需要 两 个 运算 : 乘法 和 加 法 。 与 此 类 似 的 还 有 移 位 、 减 法 等 指 
令 ， 这 些 指令 被 称 为 算术 逻辑 指令 。 

除了 做 计算 外 ， 处 理 器 还 要 能 实现 循环 ， 上 面 这 个 计算 循环 了 
count 次 。 循 环 是 由 跳 转 指 令 来 实现 的 ， 跳 回去 执行 就 能 实现 循环 。 如 
右 图 所 示 。 

循环 需要 在 一 定 条 件 下 跳出 ， 否 则 就 成 死 循 环 了 ， 条 件 跳 转 指 令 
能 完成 这 个 功能 。 条 件 跳 转 指 令 在 一 定 条 件 下 实现 跳 转 ， 它 能 实现 分 
支 功能 ， 例 如 : “如 果 明 天 下 雨 ， 我 就 在 家 ， 否 则 ， 我 就 出 去 玩 。 ”这 
个 功能 就 可 以 用 条 件 跳 转 指令 完成 。 跳 转 指 令 也 称 为 控制 指令 。 

解决 了 这 些 基本 的 运算 问题 后 ， 还 剩 下 一 个 问题 ， 那 就 是 : 操作 
的 数据 在 哪 ? 操作 的 数据 都 放 在 存储 器 中 。 在 x86 指 令 集 中 ， 算 术 逻 辑 
指令 的 操作 数 可 以 是 寄存 器 ， 也 可 以 是 存储 器 ， 而 在 其 他 的 RISC 指 令 
集中 ， 算 术 逻 辑 指 令 的 操作 数 只 能 是 寄存 器 ， 因 此 需要 先 使 用 导入 
(load) 指令 将 存储 器 中 的 数据 导入 到 寄存 器 中 ， 运 算 完成 后 ， 再 用 
导出 (store) 指令 将 寄存 器 中 的 数据 导出 到 存储 器 中 。 这 类 指令 称 为 


数据 传送 指令 。 不 同 的 指令 集 ， 指 令 命名 、 寄 存 器 命名 不 一 样 ， 不 过 
基本 规则 类 似 。 

导入 、 导 出 指令 的 基本 格式 如 下 : 
| lead *Al1， A2; 将 存储 器 某 地 址 处 的 值 导入 到 寄存 器 A2 中 ， 该 存储 器 地 址 记录 在 寄存 器 A1 中 
| store A3， *A4; 将 寄存 器 A3 的 值 导出 到 存储 器 某 地 址 处 ， 该 存储 器 地 址 记录 在 寄存 器 A4 中 

有 了 这 3 类 指令 (算术 逻辑 指令 ， 控 制 指令 ， 数 据 传送 指令 ) ， 处 
理 器 就 能 完成 各 种 复杂 的 运算 。 


3.5.6 “ 寻 址 方式 一 一 千 万 里 ， 我 追寻 着 你 


指令 的 操作 数 可 以 是 一 个 具体 的 值 ， 如 100 〈 称 为 立即 数 ) ， 也 可 
以 是 寄存 器 ， 也 可 以 是 存储 器 。 真 实 参与 运算 的 值 ， 到 底 是 立即 数 ， 
还 是 在 寄存 器 中 ， 还 是 在 存储 器 中 ， 在 存储 器 中 的 哪个 位 置 ， 这 些 就 
要 靠 寻 址 方式 来 指定 。 以 RISC 指 令 集 的 代表 MIPS 为 例 : 


$s2，100; 源 操 作 数 是 寄存 器 $s2 和 立即 数 100， 称 为 立即 数 寻 址 

$s2; 源 操作 数 是 两 个 寄存 器 ， 称 为 寄存 器 寻 址 | 

) ; 存储 器 地 址 为 100+$s2， 将 这 个 地 址 处 的 值 导入 到 寄存 器 $s1 中 ， 称 为 存 | 
储 器 寻 址 


存储 器 寻 址 又 会 分 成 更 多 的 类 型 ，RISC 指 令 集 的 寻 址 方式 较为 简 
单 ，x86 的 寻 址 方式 则 非常 复杂 ， 不 过 x86 复 杂 的 寻 址 方式 也 会 在 内 部 
转化 为 类 似 RISC 的 多 条 简单 微 操 作 。 


3.5.7 “总结 


指令 集 是 处 理 器 的 脸面 ， 就 如 同 容貌 对 于 人 的 重要 性 一 样 ， 程 序 
员 在 为 处 理 器 编写 程序 时 ， 指 令 集 就 是 他 (她 ) 们 所 看 到 的 处 理 器 的 
容貌 。 好 的 指令 集 ， 应 该 具备 如 下 特征 : 

兼容 性 : 新 一 代 处 理 器 的 指令 集 要 兼容 上 一 代 的 指令 集 。 

易 实现 : 指令 所 完成 的 功能 ， 在 处 理 器 硬件 上 要 容易 实现 。 

易 编程 : 编程 人 员 容 易 使 用 该 指令 集 进行 编程 。 


: 指令 集 


设 


计 合理 ， 以 使 得 程序 的 执行 效率 最 高 。 


第 4 章 mo 处 理 器 的 内 心 


一 个 民族 有 一 些 关 注 天 空 的 人 ， 他 们 才 有 希望 。 
加 格 尔 
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导读 一 一 荒唐 的 汉 心 


汉 心 ， 顾 名 思 义 就 是 “中 国人 的 心 片 ”， 它 是 中 国 著名 的 学 术 造 假 案 ， 当 最 终 真相 大 白 
原来 所 谓 的 汉 蕊 就 是 将 买 来 的 芯片 用 砂纸 打磨 ， 然 后 印 上 自己 的 Logo 而 成 。 被 打磨 的 芯 
就 是 前 面 提 到 的 Freescale 的 DSP 忆 片 。 


汉 忌 的 生产 过 程 
虽说 龙 必 没有 自己 的 指令 集 ， 心 片 也 是 别 的 公司 生产 的 ， 不 过 龙 必 仍 然 可 以 义 正 言辞 的 
说 自己 是 自主 知识 产权 ， 反 观 汉 必 则 不 能 ， 究 其 原因 在 于 : 龙 忆 有 自己 的 微 架 构 ， 而 汉 心 只 
有 自己 的 Logo。 微 架构 是 何 物 ? 为 什么 它 在 处 理 器 中 占据 如 此 重要 的 地 位 ? 我 们 下 面 细 说 。 


4.1 跟着 顺 溜 学 流水 线 


流水 线 是 处 理 器 中 最 基本 的 一 个 概念 ， 遥 想 当 年 攒 机 的 时 候 ， 听 
别人 说 着 奔 3 几 级 流水 线 ， 赛 扬 几 级 流水 线 ， 对 我 们 这 种 只 知道 主 频 是 
多 少 的 人 来 说 ， 感 觉 特 牛 X。 从 这 一 章 起 ， 我 们 就 从 流水 线 入 手 ， 来 
介绍 处 理 器 的 微 染 构 。 


4.1.1 ” 顺 溜 的 2 级 流水 线 


2009 年 央视 有 部 热 播 大 剧 : 《我 的 兄弟 叫 顺 溜 》。 剧 中 顺 溜 是 一 
个 神枪手 ， 里 面 有 一 个 场景 ， 当 鬼子 来 袭击 部 队 时 ， 顺 溜 向 团 长 建 
议 ， 给 自己 配 两 个 人 装 弹 ， 自 己 专门 负责 打 枪 。 


> ~ to 
”9 


《我 的 兄弟 叫 顺 溜 》 剧 照 

从 直观 的 思维 来 看 ， 有 人 帮 顺 溜 装 弹 ， 则 顺 溜 就 有 更 多 的 时 间 来 
射 杀 鬼 子 ， 下 面 我 们 再 更 严格 地 从 数学 的 角度 来 分 析 顺 溜 消 灭 鬼子 的 
效率 。 

假设 : 

(1) 顺 溜 枪法 命中 率 100% ， 一 枪 和 毙命 ， 装 弹 的 人 枪法 太 差 ， 命 
中 率 几 乎 为 0。 

(2) 子弹 射击 流程 : 先 上 膛 ， 再 射击 。 

(3) 上 膛 需 要 花费 5 秒 钟 。 

(4) 射击 需要 人 花费 5 秒 钟 。 

从 假设 可 知 : 如 果 顺 溜 采 用 原来 的 作战 方案 ， 即 一 人 一 枪 ， 自 己 
打 自 己 的 ， 射 出 一 颗 子 弹 需 要 10 秒 钟 ， 那 么 1 分 钟 顺 溜 可 以 消灭 6 个 鬼 
于 5 

我 们 再 来 看 看 顺 溜 提出 的 作战 方案 : 顺 溜 在 射击 的 同时 ， 战 友 给 
另 一 支 枪 上 膛 ， 顺 溜 射 击 完 后 ， 立 即 拿 起 另 一 支 枪 射 击 ， 这 样 就 给 顺 


溜 节省 了 上 膛 的 时 间 ， 相 当 于 顺 溜 5 秒 钟 就 完成 一 次 射击 ，1 分 钟 顺 溜 


可 以 消灭 12 个 鬼子 。 
我 们 用 图 来 描述 这 两 种 作战 方案 : 
| SS | 3S | SS SS 


第 一 发 子弹 


第 二 发 子弹 


第 一 发 子弹 子弹 射击 


顺 溜 的 方案 

从 顺 溜 方案 的 图 上 ， 我 们 可 以 看 到 : 当 顺 溜 在 打出 第 一 发 子弹 的 
同时 ， 第 二 发 子弹 正在 上 膛 ， 当 顺 溜 在 打出 第 二 发 子弹 的 同时 ， 第 三 
发 子弹 正在 上 膛 ， 子 弹 就 如 同 流 水 一 样 ， 在 各 个 环节 流动 ， 最 后 一 次 
流动 到 了 小 鬼子 的 身上 ， 这 个 过 程 被 形象 的 称 为 流水 线 。 

这 种 流水 线 的 方案 使 得 顺 溜 的 射击 效率 提升 了 一 倍 ， 虽 然 浪费 了 
另外 的 人 力 给 顺 溜 法 弹 ， 但 是 并 不 是 每 个 人 都 是 顺 溜 这 样 的 神枪手 ， 
因此 浪费 专人 上 膀 是 完全 值得 的 。 


4.1.2 ” 顺 溜 流水 线 的 深入 分 析 


在 上 一 节 中 ， 顺 溜 已 经 告诉 了 我 们 流水 线 的 基本 概念 ， 顺 溜 将 整 
个 射击 过 程 分 成 了 两 个 步骤 (术语 称 之 为 节拍 ) ， 两 个 步骤 可 以 并 行 


起 来 执行 ， 只 是 时 间 上 进行 了 些许 的 错位 ， 这 就 是 流水 线 的 本 质 。 

这 条 流水 线 被 划分 成 了 两 个 节拍 ， 也 就 是 2 级 流水 线 ， 于 是 我 们 引 
出 了 流水 线 的 第 一 个 问题 : 流水 线 级 数 。 

众所周知 ，Intel 处 理 器 的 流水 线 级 数 要 远 高 于 ARM、DSP 等 腐 入 
式 处 理 器 ， 那 么 流水 线 级 数 更 多 ， 有 什么 好 处 呢 ? 

还 是 以 顺 溜 来 举例 子 ， 假 设 顺 溜 将 射击 的 流水 线 划 分 成 4 个 步骤 : 
上 膛 1、 上 膛 2、 射 击 1、 射 击 2 四 步 ， 由 于 整个 过 程 需要 10 秒 ， 那 么 每 
一 个 小 步骤 需要 2.5 秒 。 


二 发 子弹 | bl | ba | 时 击 | 射击 2 | 
清二 发 子 旨 | ti ] 1 | 对 击 ! | 对 击 2 | 


四 发 子弹 “上 及 1 上 膀 2 | 射击! 


射击 的 4 级 流水 线 

从 图 中 我 们 可 以 看 出 ， 现 在 顺 溜 每 2.5 秒 就 可 以 射出 一 颗 子弹 ， 于 
是 一 分 钟 可 以 消 灰 24 个 敌人 人， 射击 效率 提高 了 一 倍 。 如 果 换 成 计算 机 
的 术语 ， 那 就 是 处 理 器 的 工作 频率 可 以 提升 一 倍 。 现 在 大 多 数 能 入 式 
处 理 器 的 工作 频率 在 1GHz 左 右 徘徊 ，Intel 处 理 器 的 工作 频率 早已 跳 过 
了 3GHz， 这 和 流水 线 的 级 数 有 密切 的 关系 。 总 而 言 之 ， 在 不 考虑 其 他 
因素 的 情况 下 ， 流 水 线 级 数 越 多 ， 工 作 效率 越 高 。 

再 回 到 顺 溜 的 例子 ， 细 心 的 读者 可 能 会 发 现 : 顺 溜 并 不 是 要 求 一 
个 人 给 自己 上 膛 ， 而 是 要 求 两 个 人 。 从 直觉 来 看 ， 响 汐 不 仅仅 是 个 神 
枪手 ， 同 时 也 是 个 快 枪手 ， 射 击 的 速度 是 上 膀 速 度 的 两 倍 。 我 们 再 来 
从 数学 的 角度 严谨 分 析 一 下 ， 这 也 引出 了 流水 线 的 第 二 个 问题 : 流水 
线 的 效率 问题 。 

先 修改 一 下 上 一 节 的 假设 : 上 膛 时 间 为 10 秒 ， 射 击 时间 为 5 秒 。 我 
们 再 来 看 看 射击 过 程 : 


I0s 10s 10s 10s 


不 规则 的 流水 线 示例 
从 图 上 我 们 可 以 看 出 ， 即 使 是 顺 溜 射 击 得 再 快 ， 也 要 等 到 战友 将 
子弹 上 完胜 ， 因 此 顺 溜 有 一 半 的 时 间 在 等 待 ， 什 么 事情 也 没有 做 。 本 
着 能 者 多 劳 的 原则 ， 让 顺 溜 闲 着 是 极 大 的 浪费 ， 因 此 我 们 要 想 办 法 解 
决 这 个 问题 。 
一 种 解决 方法 是 将 子弹 上 膛 细 分 为 两 个 步骤 一 -上 胜 1 和 上 胜 2， 
组 成 3 级 的 流水 线 ， 如 下 图 所 示 : 


SS SS $s SS 


EE 


时 间 
第 三 发 子弹 下 全 | Ee ks 


拆 分 耗 时 较 长 的 步骤 

采用 这 种 方式 后 ， 相 当 于 有 两 个 战友 给 顺 溜 上 膛 ， 一 个 做 上 膛 1 这 
个 步骤 ， 另 一 个 做 上 膛 2 这 个 步骤 ， 再 加 上 顺 渔 ， 这 3 个 人 组 成 一 个 流 
水 线 ， 可 以 保证 顺 溜 5 秒 杀 一 人 。 

不 过 ， 很 多 事情 是 很 难 进 一 步 分 拆 的 ， 如 上 腾 就 不 能 分 成 两 个 步 
又 ， 那 么 这 时 候 怎么 办 呢 ? 我 们 可 以 采取 如 下 的 策略 : 配备 两 个 战友 
给 顺 溜 上 膛 ，1 个 10 秒 内 就 可 以 有 两 把 枪 的 子弹 上 膛 了 ， 在 下 一 个 10 秒 
内 ， 顺 溜 就 可 以 射击 两 次 ， 因 此 也 能 保证 顺 溜 5 秒 杀 一 人 。 这 也 就 是 顺 
溜 要 求 给 目 己 配 两 个 人 装 弹 的 原因 。 


10s 10s 10s 10S 


第 四 发 子弹 子弹 上 用 


给 耗 时 步骤 配置 多 个 重复 单元 
上 面 这 个 例子 ， 进 一 步 通用 化 ， 当 一 个 节拍 的 执行 时 间 比 别 的 节 
拍 长 时 ， 这 时 候 流 水 线 的 效率 并 不 是 最 高 ， 如 图 : 


不 合理 的 流水 线 节拍 划分 
可 以 采用 如 下 两 种 方式 来 解决 这 个 问题 : 


1. 拆 分 长 节拍 


拆 分 节拍 3 


2. 增加 长 节拍 的 处 理 单元 


更 多 的 处 理 单 元 
流水 线 的 思想 可 以 说 是 用 在 生活 中 的 方方面面 ， 车 间 流 水 线 是 它 
在 工业 上 的 用 途 之 一 ， 科 学 管理 之 父 泰勒 认为 : 科学 管理 理念 的 精髓 
之 一 就 是 进行 流水 作业 。 


4.2 ”从 子弹 射击 到 指令 执行 
4.2.1 ”最 简单 的 3 级 流水 线 


子弹 的 射击 过 程 ， 可 以 被 分 成 3 个 步 又: 上 膛 、 了 瞄准、 射击 。 指 令 
的 执行 过 程 ， 其 实 也 可 以 划分 为 类 似 的 3 个 步骤 : 取 指 、 译 码 、 执 行 。 


ii 一 
一 


指令 的 执行 过 程 和 射击 过 程 的 类 比 
间 令 存储 在 内 存 中 ， 要 被 加 载 到 内 核 中 ， 这 个 过 程 就 是 取 指 。 
指令 是 经 过 一 定格 式 编码 的 。 例 如 ，MIPS 的 J 型 指令 格式 如 下 : 


6 bit 26 bit 
op 跳 转 地 二 


MIPS 的 J 型 指令 格式 


指令 处 理 


前 面 6 bit 标 识 指令 的 操作 码 ， 即 这 条 指令 是 干什么 的 ， 后 面 26 bit 


是 这 个 跳 转 指令 的 跳 转 地 址 。 指 令 是 一 串 0、1 序 列 ， 译 码 单元 要 将 这 
条 指令 包含 的 有 用 数据 解 出 来 ， 如 果 是 跳 转 指令 ， 就 要 知道 它 的 地 


址 ， 


如 果 是 运算 指令 ， 就 要 知道 的 它 的 源 操作 数 、 目 的 操作 数 在 哪 ， 


这 样 处 理 器 才能 进行 后 续 的 运算 。 


指令 的 执行 就 是 真正 进行 运算 的 步骤 ， 执 行 a 十 b 三 c 就 是 在 这 个 阶 


段 进 行 的 。 


构 : 


低 功 耗 谋 入 式 领域 的 经 典 产 品 ARM7 就 是 采用 这 种 3 级 流水 线 结 


Time (时 钟 周 期 ) 


:Cycle 1: Cycle 2 :Cycle 3 :Cycle 4 :Cycle 5 ;Cycle 6 :Cycle7 | 


: 
进 流水 全 并 行 出 流水 


ARM7 3 级 流水 线 结构 


流水 线 节 拍 描述 : 


流水 线 节拍 描述 
IF Instruction Fetch， 取 指 
ID Instruction Decode， 译 码 
EX Execute， 执 行 


3 级 流水 线 
指令 的 执行 过 程 被 划分 为 3 个 步骤 ， 分 别 在 不 同 的 部 件 中 执行 。 头 


两 个 Cycle 是 指令 的 进 流水 线 阶段 ， 这 时 候 处 理 器 内 部 的 3 个 部 件 没 有 


百 分 百 利用 起 来 ， 在 第 3 人 5 个 Cycle， 处 理 器 内 部 的 3 个 部 件 全 速 运 
ee 
的 阶段 ， 指 令 完 全 流出 流水 线 时 ， 指 令 执行 结束 。 

执行 步骤 划分 得 越 细 ， 则 每 个 步骤 执行 的 时 间 越 少 ， 处 理 器 的 执 
行 频率 可 以 越 高 。 通 用 CPU 的 流水 线 深 度 要 比 佑 入 式 处 理 器 长 ， 因 此 
频率 也 高 。 流 水 线 深 度 越 深 ， 处 理 器 的 内 部 结构 也 越 复杂 。 


4.2.2 ”史上 最 经 典 的 5 级 流水 线 


处 理 器 内 部 有 很 多 通用 寄存 器 ， 这 些 寄存 器 用 来 存储 指令 的 操作 
数 ， 它 对 程序 员 可 见 ， 如 x86 有 8 个 通用 寄存 器 ，RISC 处 理 器 则 更 多 ， 
党 有 32 个 或 64 个 等 。 这 一 堆 寄 存 器 也 被 叫做 Register file (寄存 器 
堆 ) 5 

在 流水 线 设 计 中 ， 为 了 确保 不 同 流水 线 节 拍 不 会 相互 影响 ， 在 每 
个 阶段 引入 了 流水 线 寄 存 器 来 分 隔 各 个 流水 线 节 拍 : 


pp 


流水 线 寄存 器 
寄存 器 就 像 是 红 灯 ， 信 号 只 在 固定 的 时 间 才 会 将 左 端 节拍 的 值 传 
递 给 右 端 节拍 ， 这 样 各 个 节拍 的 工作 就 不 会 出 现 紊 乱 。 
在 汇编 语言 中 ，ALU (算术 逻辑 单元 ) 直接 访问 通用 寄存 器 进行 
运算 ， 在 硬件 实现 时 ， 通 用 寄存 器 中 的 数据 先 被 读 到 流水 线 寄 存 器 


中 ， 即 ALU 的 输入 寄存 器 中 ，ALU 运 算 结 束 后 ， 数 据 会 存储 在 ALU 的 
输出 寄存 器 中 ， 最 后 再 送 回 到 通用 寄存 器 中 。 下 图 为 ALU、 通 用 寄存 
| 

流水 线 寄存 器 对 程序 员 是 不 可 见 的 ，ALU 指 令 的 执行 节拍 可 以 进 
一 步 细 分 为 3 个 子 节拍 : 

(1) 从 寄存 器 堆 中 读 取 寡 存 器 的 值 。 

(2) 进行 运算 。 

(3) 将 运算 结果 写 回 到 寡 存 器 堆 中 。 


Register file 


(寄存 器 堆 ) 


ALU Input 
register 


(ALU 输 入 寄存 器 ) 


ALU Output 
Reglster 


(ALU 输 出 寄存 器 ) 
ALU、ALU 输 入 输出 寄存 器 、 寄 存 器 堆 的 关系 
根据 这 个 分 析 ， 处 理 器 的 流水 线 可 以 进一步 细 分 。MIPS 处 理 器 在 
设计 时 ， 将 处 理 器 的 执行 过 程 划 分 为 5 个 阶段 。 


流水 线 阶段 描述 


IF Instruction Fetch， 取 指 


ID lnstruction Decode， 详 码 


EX Execute， 执 入 


MEM Memory Access， 内 存 数 据 读 或 者 写 
WB Write Back， 数 据 写 回 到 通用 寄存 器 中 
5 级 流水 线 


在 MIPS 的 5 级 流水 线 中 ， 从 寄存 器 堆 中 读数 据 到 ALU 输 入 寄存 器 
这 个 步骤 被 放 在 了 ID 阶段 ， 将 运算 结果 写 回 到 寄存 器 堆 被 作为 一 个 独 
立 的 阶段 。 

到 目前 为 止 ， 我们 都 认为 数据 已 经 存放 在 寄存 器 中 ， 事 实 上 ， 数 
据 被 存放 在 内 存 (Memory) 中 ， 在 RISC 处 理 器 中 ， 数 据 要 先 从 内 存 
load 〈 导 入 ) 到 寄存 器 中 ， 然 后 再 参与 运算 ， 然 后 将 运算 结果 store 

(导出 ) 到 存储 器 中 去 。 因 此 ，MIPS 的 5 级 流水 线 增 加 了 一 个 MEM 阶 
段 。 

对 于 运算 指令 ， 在 MEM 阶 段 空 六 。 对 于 load 指 令 ， 在 EX 阶段 计算 

要 访问 的 地 址 ， 在 MEM 阶 段 从 内 存 中 将 数据 读 入 到 MEM register 
(MEM 和 WB 之 间 的 流水 线 寄存 器 ) 中 ， 在 WB 阶段 ， 将 MEM register 
的 数据 写 回 到 Register file 中 。 对 于 store 指 令 ， 在 EX 阶段 计算 要 访问 的 
地 址 ， 在 MEM 阶 段 将 寄存 器 中 的 数据 写 回 到 存储 器 中 。 
下 图 是 MIPS 5 级 流水 线 的 执行 顺序 图 : 


Time 时钟 周 期 ) 


Cycle liCycle 2:Cycle 3iCycle 4:Cycle SiCycle 6iCycle 7iCycle 8iCycle 9 


i$! PO OD CT II 


进 流水 全 并 行 


MIPS 5 级 流水 线 
这 5 级 流水 线 可 以 说 是 史上 最 经 典 的 流水 线 ， 早 期 的 MIPS、 
ARM9 等 处 理 器 使 用 这 种 流水 线 ， 以 后 的 处 理 器 也 都 能 看 到 它 的 影 
子 ， 包括 x86 处 理 器 等 。 


4.2.3 ” ”DSP 更深 的 流水 线 


不 同 的 处 理 器 会 有 不 同 的 流水 线 划 分 。 在 TI C6000 DSP 中 ， 所 有 
旨 令 的 执行 都 可 分 为 Fetch ( 取 指 ) 、Decode ( 译 码 ) 、Execute ( 执 
行 ) 3 个 大 的 步骤 ， 每 个 大 的 步骤 又 可 以 细 分 为 一 些小 的 步骤 : 


Program Fetch Decode Execute 


C6000 流 水 线 节拍 


流水 线 阶段 描述 


Fetch PG Program Address Generate， 程 序 地 址 产生 

PS Program Address Send， 君 序 地 址 发 送 

PW Program Access Ready Wait， 程 序 访问 等 待 

PR Program Fetch Packet Receive， 程 序 取 指 包 接 | 0 
Decode DP Instruction Dispatch， 指 令 分 派 

DC Instmuction Decode， 指 令 译 码 
Execute El 执行 阶段 的 第 一 个 子 节拍 


DSP 流 水 线 描 述 

在 MIPS 中 ，MEM 操 作 和 ALU 运 算 放 在 不 同 的 节拍 ， 在 DSP 中 ， 
它们 都 被 放 在 指令 的 执行 节拍 中 。 在 MIPS 中 ， 寄 存 器 写 回 是 单独 一 个 
节拍 ， 在 DSP 中 ， 这 个 过 程 也 被 放 在 了 执行 节拍 中 。 从 这 个 角度 来 
看 ，DSP 的 节拍 划分 更 符合 软件 人 员 的 视角 ， 不 管 是 ALU 运 算 ， 还 是 
MEM 操 作 ， 还 是 寄存 器 写 回 等 ， 这 些 都 是 指令 的 执行 过 程 ， 唯 一 的 区 
别 在 于 ， 不 同 指令 的 执行 时 间 不 一 样 。 

在 TI C64 内 核 中 ， 简 单 的 指令 《如 加 法 等 ) 只 需要 1 个 Cycle， 乘 
法 等 指令 需要 两 个 Cycle，]load/store 需 要 5 个 Cycle， 分 支 指令 需要 6 个 
Cycle。 在 TI C66 内 核 中 ， 有 的 指令 甚至 需要 10 个 Cycle。 

下 图 为 C6000 DSP 的 流水 线 : 


Time (时钟 周 期 ) 


; Cycle 1 : Cycle 2 Cycle 3; Cycle 4 | Cycle 5 : Cycle 6 :Cycle 7 Cycle 8 Cycle 9: 


| 51 ee pe ee 


el ) Sreesnreerl: 


序 | 指令 2 | | 


soreseseeesl | heseee-=l 3 


: Sebaesco seb 0 Ccere tb + Cu 是 是 FT : Sseo0vovood 


DSP 流 水 线 
在 图 上 星 型 标注 的 位 置 ， 指 令 2 处 于 E2 节 拍 ， 指 令 3 处 于 E1 节 拍 ， 
即使 指令 3 和 指令 2 使 用 相同 的 运算 单元 ， 这 条 流水 线 也 能 顺利 运行 ， 
这 是 因为 功能 单元 的 E1 和 E2 阶 段 也 是 流水 线 结构 的 。 


4.2.4 ”流水 线 上 的 冒险 一 一 免不了 伴 辜 绊 绊 


人 生路 上 总 是 磋 确 绊 绊 ， 流 水 线 也 一 样 。 流 水 线 中 每 个 节拍 硬件 
被 充分 利用 ， 这 只 存在 于 理想 的 马 托 邦 中 ， 现 实 总 会 出 现 这 样 或 那样 
的 问题 ， 让 原本 顺畅 的 流水 线 出 现 停顿 ， 断 断 续 续 。 这 些 导 致 流水 线 
出 现 停顿 的 因素 称 为 流水 线 冒 险 (Hazard) 。 下 面 我 们 就 来 看 看 哪些 
情况 会 导致 流水 线 停顿 ， 以 及 怎样 解决 这 些 问题 。 


1. 结构 冒险 


因为 处 理 器 资源 冲突 ， 而 无 法 实现 某 些 指令 的 组 合 ， 就 称 该 处 理 
器 有 结构 冒险 。 


我 们 以 MIPS 流 水 线 为 例 ， 指 令 和 数据 都 存储 在 存储 器 中 ， 下 阶段 
需要 访问 存储 器 ，MEM 阶 段 也 需要 访问 存储 器 ， 在 早期 的 处 理 器 中 ， 
程序 和 数据 存储 器 没有 分 开 ， 下 图 在 第 4 个 Cycle，IF 和 MEM 同 时 访问 
存储 器 导致 其 中 一 个 操作 要 等 待 。 现 在 的 处 理 器 ， 程 序 存 储 在 LIP 
Cache 中 ， 数 据 存 储 在 LID Cache 中 〈 关 于 Cache 在 下 一 章 介 绍 ) ， 单 独 


访问 ， 因 此 不 存在 这 个 问题 。 
访问 存储 器 
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时 种 


结构 冒险 示例 


2. 数据 冒险 
流水 线 使 原先 有 先后 顺序 的 指令 同时 处 理 ， 当 出 现 某 些 指令 的 组 
合 时 ， 可 能 会 导致 指令 使 用 了 错误 的 数据 。 
看 下 面 这 个 例子 : 
Time (时 钟 周期 ) 


:Cycle 1 : Cycle2 : Cycle 3 : Cycle 4 : Cycle 5 ; Cycle6 : 


add R1, R2, R3 


a add R4. R1, RS 


R1 在 Cycle 5 才 会 被 写 回 ， 
这 里 使 用 的 寄存 器 值 不 正确 


寄存 器 访问 的 数据 冒险 


“add R1,R2,R3” 将 寄存 器 R2 和 R3 的 和 赋 给 R1,， “add R4,R1,R5” 将 
寄存 器 R1 和 R5 的 和 赋 给 R4， 很 明显 ，R1 在 第 1 条 指令 中 被 更 新 ， 然 后 
在 第 2 条 指令 中 使 用 ， 可 是 R1 必 须 在 第 5 个 Cycle 之 后 才 被 更 新 ， 而 指令 
2 在 第 4 个 Cycle 就 要 访问 R1， 这 时 的 R1 还 不 是 正确 的 值 ， 执 行 结果 出 
错 。 

一 种 解决 方法 是 在 这 两 条 语句 之 间 增 加 两 个 Cycle 的 等 待 : 

Dime ( 时 钟 周 期 ) 


Cycle 1 ;Cycle 2 ;Cycle 3:Cycle 4: Cycle 5: Cycle6 ;Cycle7i Cycle 8: 


add R1, R2, R3 [ 卫 四 四 天 吧 

| sa 人 
sa a 
J 四国 EC 


通过 增加 等 待 来 消除 数据 冒险 
延 时 两 个 Cycle，Cycle 5 将 第 1 条 指令 的 结果 写 回 到 寄存 器 R1 中 
第 2 个 add 指 令 的 EX 单元 就 可 以 正常 执行 了 。 
这 种 方法 有 很 大 一 个 缺点 就 是 中 间 增 加 了 两 个 Cycle 的 等 待 ， 影 响 
了 执行 效率 。 实 际 的 处 理 器 使 用 直通 (Forwarding) 来 解决 这 个 问 


题 。 


后 


-> 


当 硬 件 检 测 到 当前 指令 的 源 操作 数 正好 在 EX/MEM 流 水 线 寡 存 器 
中 时 ， 就 直接 将 EXMEM 寄 存 器 的 值 传递 给 ALU 的 输入 ， 而 不 是 从 寄 
存 器 堆 中 读数 据 ， 如 下 图 : 


Time ( 时 钟 周 期 ) 


:Cycle 1 Cycle 2 Cycle3 : Cycle 4 {Cydle5 : 和 6 : 


加 
序 | add R4.R1.R5 le) | le | mn 国 


使 用 Forwarding， 解 决 数据 冒险 
只 寄存 器 访问 有 这 样 的 问题 ，Memory 访 问 也 有 同样 的 问题 。 看 
人 


Time (时 钟 周 期 ) 


Cyclel ; Cycle2 ; Cycle3 : Cycle4 : Cycle 5 : Cycle 6 


Ni ] z ] ] 


Ri 在 Cycle 5 后 才 会 被 写 回 ， 
这 里 使 用 的 寄存 器 值 不 正确 


Memory 访 问 的 数据 冒险 

“load R1， (R2) ”将 存储 器 中 的 值 装 载 到 R1 中 来 ， 存 储 器 的 地 址 
在 R2 中 存储 ，“store R1， (R3) ”将 R1 中 的 值 放 到 存储 器 中 去 。 在 
Cycle 4，load 指 令 的 MEM 阶 段 将 存储 器 中 的 值 装 载 到 MEM/WB 寄 存 器 
中 ， 在 Cycle 5，load 指 令 的 WB 阶 段 将 MEM/WB 寄 存 器 的 值 装载 到 寡 
存 器 R1 中 ， 而 在 Cycle 5，store 指 令 的 MEM 要 将 寄存 器 R1 的 值 放 到 存 
储 器 中 去 ，R1 的 值 还 没有 被 load 指 令 更 新 。 这 个 数据 冒险 的 解决 方法 
可 以 延 时 1 个 周期 ， 也 可 以 采用 同样 的 Forwarding 方 法 ， 将 MEM/WB 寄 
存 器 直通 到 MEM 输 入 端 


Time (时 钟 周期 ) 


: Cycle 1 ; Cycle2 : Cycle3 Cycle4 :Cycle5 Cycle6 


load R1, (R2) [= 中 | HE CE 
顺 
了 store R1, (R3) : :已 可 [| CE Ei 


便 用 Forwarding， 解 决 数 据 冒 险 


也 不 是 每 种 数据 冒险 都 能 解决 ， 同 时 又 不 引起 stall， 如 下 面 这 个 
例子 : 


Time 【时钟 周期 


i: Cycle 1; Cycle2; Cycle3 ; Cycle4 ; Cycle5 ;Cycle6 : 
指 |load R1,(R2) :Ci :| [CE 


i all : - br Ss Be | : 
sta hg a ad nd hs 
sub R4. RI R3 : CT] : a 


仍然 需要 stall 的 直通 示例 


sub 指 令 需 要 R1， 但 是 R1 最 早 也 要 在 Cycle 4 才 到 MEMVWB 寄 存 器 
中 ， 即 使 将 MEM/WB 寡 存 器 直通 到 EX 的 输入 端 ， 也 需要 延 时 一 个 
Cycle 才能 使 用 。 


3。 控制 冒险 


从 微观 的 角度 ， 在 流水 线 处 理 器 中 ， 指 令 是 并 行 处 理 的 ， 在 当前 
指令 正在 执行 时 ， 后 面 的 很 多 条 指令 已 经 完成 了 取 指 和 译 码 等 步骤 。 
然而 ， 在 程序 中 会 存在 很 多 的 跳 转 语句 ， 如 果 程 序 的 实际 执行 路 径 是 
要 跳 转 到 其 他 的 地 址 去 执行 ， 那 么 流水 线 中 已 经 做 的 这 些 取 指 和 译 码 
工作 就 白 做 了 ， 这 就 是 流水 线 的 控制 冒险 。 此 时 ， 处 理 器 需要 排 空 流 
水 线 ， 跳 转 到 新 的 地 址 处 重新 进入 流水 线 。 由 此 可 知 ， 跳 转 对 程序 性 
能 的 损失 是 巨大 的 ， 流 水 线 越 深 ,损失 越 大 。DsP 流 水 线 更 深 ， 我们 
以 DSP 流 水 线 为 例 说 明 这 个 问题 的 危害 性 。 

在 下 面 这 个 DSP 流 水 线 中 ， 指 令 2 在 第 8 个 Cycle 执行 时 ， 发 现 要 跳 
转 到 其 他 的 地 方 ， 于 是 流水 线 后 面 的 PG 等 工作 就 全 白 做 了 。 


Time{ 时 钟 周期 ) 


:Cyclel : Cycle2; Cycle3 : Cycle 4 : Cycle 5 :Cycle6 : Cye 


发 生 跳 转 时 的 性 能 损失 
x86 处 理 器 使 用 硬件 冲刷 流水 线 来 保证 发 生 跳 转 时 ， 流 水 线 能 正确 
执行 ， 在 DSP 中 ， 硬 件 不 处 理 这 些 冒 险 ， 而 是 改 由 软件 来 处 理 。DSP 
通过 增加 NOP 来 排 空 流水 线 ， 在 跳 转 语句 后 增加 5 个 NOP 操 作 来 保证 流 
水 线 正 确 。 
loop;， 踏 转 到 loop 地 址 处 
5; 


wasn 


loop : MPY ; loop 为 地 址 标志 


Time ( 时钟 周 期 ) 
i Cyeie 1 | : Cycle2: ' Oyele3 Cycle4 ; 1 Cyole 5 : Cycle6 : ‘Cycle 7 | 


earesan 


加 NOP 解 决 控制 冒险 


跳 转 指令 的 执行 阶段 修改 程序 指针 的 地 址 ， 加 了 5 个 NOP 后 ， 
MPY 的 流水 线 正好 可 以 顺利 执行 。 

在 DSP 中 ， 编 译 器 可 以 将 指令 乱 序 ， 用 有 效 措 令 代替 NOP 指 令 ， 
这 样 就 避免 了 跳 转 带 来 的 性 能 损失 。 

在 x86 CPU 上 ， 使 用 分 支 预测 用 来 避免 跳 转 审 来 的 损失 。 


4.2.5 “分 支 预测 一 一 以 古 为 镜 ， 可 以 知 兴 蔡 

高 级 语言 中 的 for、 计 、else、switch 等 ， 都 是 通过 跳 转 来 实现 的 。 
正 是 由 于 计算 机 指令 中 具有 能 够 改变 程序 流向 的 指令 ， 才 使 得 程序 结 
人 例如， 下面 这 个 for 循 环 : 


定名 部/ 
国 纪 木 Zo 


构 灵 活 多 样 ， 程 序 功 能 丰富 


工 - 
mov eax, dw 
adda 后 忌 其 ， 
mov dword bp— 
cmp dword k 1 
Ge maint+4d ( 
SUm+= 
mov Cx: dword 
add CX, dword p 
mov iword pt 
)460 jmp main+28h (0 
D462 PoP edi 


for 循 环 在 x86 上 的 汇编 实现 


在 这 个 for 循 环 例子 中 ，jmp 是 无 条 件 跳 转 的 ， 直 接 跳 转 到 地 址 
0x0040d448 处 ， 将 代码 的 执行 过 程 组 成 一 个 回路 ， 达 到 循环 的 目的 。 
jge 是 条 件 跳 转 ， 在 一 定 条 件 下 跳 到 地 址 0x0040d462 处 ， 跳 出 for 循 环 。 


跳 转 和 分 支 (branch) 等 义 。 


跳 转 使 程序 出 现 多 个 执行 路 径 ， 也 即 分 支 ， 如 果 我 们 能 提前 预测 
出 一 条 跳 转 指令 是 否 跳 转 ， 以 及 它 的 目标 地 址 ， 我 们 就 明确 了 程序 的 
执行 路 径 ， 可 以 修改 程序 指针 ， 提 前 控制 流水 线 从 正确 的 地 方 开始 取 
指 ， 这 样 流水 线 的 效率 能 有 极 大 的 提升 。 

人 们 常 说 ， 历 史 总 是 惊人 的 相似 。 伟 大 君主 了 和 干 古 一 各 文武 
大 圣人 大 广 了 孝 皇 带 天 可 汗 唐 太宗 李世民 教育 我 们 :“ 以 古 为 
镜 ， 可 以 知 兴 蔡 ”， 也 就 是 说 ， 读 历史 可 以 预测 未 来 。 同 样 ， 我 们 也 可 
以 根据 历史 信息 来 对 跳 转 指令 进行 预测 ， 这 就 是 分 支 预测 。 

采用 分 支 预 测 ， 处 理 器 猜测 进入 哪个 分 支 ， 并 且 基 于 预测 的 结果 
来 取 指 、 译 码 。 如 果 和 猜测 正确 ， 就 能 节省 时 间 ， 如 果 和 猜测 错误 ， 大 不 
了 从 头 再 来 ， 刷 新 流水 线 ， 在 新 的 地 址 处 取 指 、 译 码 。 因 此 ， 分 支 预 
测 的 效果 ， 就 体现 在 预测 算法 的 准确 性 上 。 


1. 分 支 预测 算法 


无 条 件 跳 转 指令 必然 会 跳 转 ， 而 条 件 跳 转 指令 有 时 候 跳 转 ， 有 时 
候 不 跳 转 ， 一 种 简单 的 预测 方式 就 是 根据 该 指令 上 一 次 是 否 跳 转 来 预 
测 当前 时 刻 是 否 跳 转 。 如 果 该 跳 转 指令 上 一 次 发 生 跳 转 ， 就 预测 这 一 
次 也 会 跳 转 ， 如 果 上 一 次 没有 跳 转 ， 就 预测 这 一 次 也 不 会 跳 转 。 这 种 
预测 方式 称 为 : 1 位 预测 (1-bit prediction) 。 


ey 


预测 为 不 跳 转 预测 为 跳 转 


1 位 预测 


1-bit 预 测算 法 简单 ， 不 过 在 性 能 上 略 有 不 足 ， 原 因 在 于 它 太 容易 
翻转 ，2-bit 预 测 则 更 加 稳妥 。 

2 位 预测 (2-bit predictor) 。 每 个 跳 转 指令 的 预测 状态 信息 从 1 
bit 增 加 到 2 bit 计 数 器 ， 如 果 这 个 跳 转 执行 了 ， 就 加 1， 加 到 3 就 不 加 
了 ， 如 果 这 个 跳 转 不 执行 ， 就 减 1， 减 到 0 就 不 减 了 ， 当 计数 器 值 为 Oo 和 
1 了 时， 就 预测 这 个 分 支 不 执行 ， 当 计数 器 值 为 2 和 3 时 ， 就 预测 这 个 分 支 
执行 。2 位 的 计数 器 比 1 位 的 计数 器 拥有 更 好 的 稳定 性 。 


预测 为 不 跳 转 预测 为 跳 转 


2 位 预测 
由 2 位 预测 又 引申 出 了 很 多 其 他 的 分 支 预测 算法 ， 通 常 商用 处 理 器 
大 都 采用 多 种 策略 的 组 合 ， 来 获得 更 好 的 预测 结果 。 


2. 分 支 预测 实现 


算法 是 基础 ， 有 了 算法 后 ， 就 可 以 在 处 理 器 中 实现 分 支 预测 功 
能 。Intel 的 分 支 预 测 模块 包含 了 3 个 单元 : 
(1) Branch Target Buffer (BTB) 。 
(2) The Static Predictoro 
(3) Return Stacko 
基本 的 BTB 结 构 如 下 : 


} 支 指令 的 地 址 ”预测 的 跳 转 地 址 预测 状态 信息 
晕 
这 
1 
1 Yes。 用 预测 的 地 址 作为 

F 一 次 取 指 的 地 址 
No 
直接 取 下 一 条 指令 


BTB (Branch Target Buffer) 


分 支 指令 在 执行 后 ， 会 将 这 条 指令 的 地 址 及 它 的 跳 转 信息 记录 在 
BTB 中 。BTB buffer 不 会 太 大 ， 不 能 将 所 有 的 分 支 指 令 都 存 进 去 ， 通 
常 采 用 Hash 表 的 方式 存 入 。 在 取 指 时 ， 先 将 PC (程序 措 针 ) 和 BTB 中 
的 分 支 指令 的 地 址 进行 比较 ， 如 果 找 到 了 ， 说 明 这 条 指令 是 分 支 指 
令 ， 并 且 在 BTB 中 有 记录 ， 就 使 用 BTB 预 测 出 来 的 跳 转 地 址 。 如 果 没 
有 记录 ， 就 不 能 使 用 BTB 的 信息 了 ， 取 指 下 一 条 指令 。 

Intel 的 Branch Target Buffer 还 包含 了 历史 跳 转 信息 ， 用 于 预测 分 支 
指令 是 否 友 生 跳 转 。 


The Static Predictor 


当 分 支 指令 在 BTB 中 记录 了 历史 信息 才能 使 用 BTB 进 行 预测 ， 当 
分 支 在 BTB 中 找 不 到 记录 时 ， 可 以 使 用 The Static Predictor (静态 预测 
器 ) 。 人 们 将 分 支 指令 的 执行 情况 做 了 大 量 的 统计 ， 从 中 总 结 出 一 些 
特征 ， 并 将 这 些 特 征 总 结 为 一 些 固定 的 策略 ， 这 就 是 静态 预测 器 。 

当 指令 被 解码 后 ， 它 是 不 是 分 支 指令 ， 以 及 要 跳 转 的 地 方 就 知道 
了 ， 只 是 不 知道 是 否 该 跳 。 一 般 来 说 ， 向 上 的 跳 转 ， 常 用 来 组 织 成 循 
环 ， 这 个 跳 转 应 该 被 预测 为 执行 。 


静态 预测 器 通 尝 的 策略 是 : 向 下 跳 转 预测 为 不 跳 转 ， 向 上 跳 转 预 
测 为 跳 转 。 


TI MOV 
回 上 跳 ， 组 成 一 个 回路 ， 
很 可 能 是 一 个 循环 
branch 


向 上 跳 ， 组 成 循环 

Return Stack 

函数 调用 在 程序 中 大 量 出 现 ， 函 数 调用 与 返回 也 都 是 通过 跳 转 来 
实现 的 。 例 如 ， 有 3 个 函数 调用 了 printf 国 数 ，printf 国 数 地 址 固定 ， 调 
用 时 知道 地 方 ， 但 是 在 返回 时 ， 并 不 知道 该 返回 到 哪个 地 方 ，Return 
Stack (返回 栈 ) 可 以 用 于 解决 这 个 问题 。 在 图 数 调用 时 ， 将 函数 的 返 
回 地 址 压 栈 到 Return Stack 中 ， 当 遇 到 国 数 返回 指令 时 ， 就 从 Returmn 
Stack 中 取出 地 址 。 


] “in? 
funl fun2 fun3 


AH 


printf 
3 个 函数 都 调度 printf 销 数 
3。 条 件 执行 


分 支 预测 会 消耗 大 量 的 资源 ， 很 多 低 功 耗 的 处 理 器 没有 分 支 预 
测 ， 如 TI 的 DSP， 它 采用 指令 的 条 件 执行 来 减少 跳 转 指令 。 例 如 


if ( flag ) 


用 DSP 的 汇编 表示 为 : 


[BO0] ADD .LL2 B8, 0, BSé 
[1B0] ADD ,1 A8, 0, Bé6 


第 1 条 语句 在 B0 非 0 时 执行 ， 将 b 赋 给 a， 当 B0 为 0 时 ， 这 条 语句 为 
空 ， 不 执行 。 

第 2 条 语句 在 B0 为 0 时 执行 ， 将 c 赋 给 a， 当 B0 为 非 0 时 ， 这 条 语 铝 
为 空 ， 不 执行 。 

在 TI DSP 中 ， 只 有 几 个 寄存 器 能 作为 条 件 寄 存 器 ， 对 于 短小 的 
证 、else 语 句 ， 条 件 执行 已 经 足够 ， 对 于 复杂 的 让、else 判 断 ， 条 件 执行 
就 无 能 为 力 了 ，DSP 并 不 擅长 处 理 复 杂 的 控制 代码 ， 这 些 还 得 需要 分 
支 预测 。 


4.3 ”从 顺序 执行 到 乱 序 执行 


4.3.1 乱 序 的 概念 


话说 有 一 日 ， 项 羽 率 兵 来 打 刘 邦 ， 刘 孝 命 士兵 在 城 外 3 个 路 段 分 别 
设 3 个 陷阱 ， 刘 孝 给 出 如 下 的 指令 : 


因 时 制 宜 


指令 指令 描述 
指令 ] 在 路 段 1 设置 陷阱 硫磺 干草 


指令 2 在 路 段 2 设置 陷阱 绊 马 索 


指令 3 在 路 段 3 设置 陷阱 地 矛 刺 


陷阱 2 ”陷阱 3- 
攻 城 战 
偏 巧 那 一 日 路 段 1 下 雨 没 干 ， 没 法 设置 陷阱 ， 众 士兵 就 准备 在 那里 
等 待 ， 这 时 一 个 聪明 的 士兵 就 说 :“ 政 军 不 日 即 来 攻 城 ， 与 其 众人 在 此 
等 待 ， 何 不 先 将 陷阱 设 于 路 段 2 和 路 段 3， 待 得 路 段 1 干 时 ， 再 设 陷 阱 于 
路 段 1 。” 众 人 一 听 ， 觉 得 他 的 主意 不 错 ， 就 按照 他 的 方法 做 了 起 来 。 


实际 执行 顺序 ”指令 描述 

指令 2 在 路 段 2 设置 陷阱 绊 马 索 
i 邻 3 在 路 段 3 设置 陷阱 地 矛 刺 
指令 ] 在 路 段 1 设置 陷阱 硫磺 干草 


这 位 士兵 提出 的 做 法 ， 就 是 乱 序 执行 ， 乱 序 执行 的 好 处 就 在 于 因 
时 制 宜 ， 节 约 时 间 。 
顺序 工作 2 汪 路 段 1 设 陷阱 路 段 2 设 陷阱 ” ”路 段 3 设 陷阱 


EPR A EI ET NE MU NE De tig || 
乱 序 工作 国语 路 段 1 设 陷阱 


乱 序 工作 能 节省 时 间 
指令 在 执行 时 常常 因为 一 些 限 制 而 等 待 。 例 如 ，MEM 单 元 访问 的 
数据 不 在 cache 中 ， 需 要 从 外 部 存储 器 中 取 ， 这 个 过 程 通 常 需要 几 十 、 
几 百 个 Cycle， 如 果 是 顺序 执行 的 内 核 ， 后 面 的 指令 都 要 等 待 ， 而 如 果 


处 理 器 足够 智能 ， 就 可 以 先 执 行 后 面 不 依赖 该 数据 的 指令 ， 这 就 是 处 
理 器 的 乱 序 执行 。 


4.3.2 ”指令 的 相关 


相关 是 影响 乱 序 调度 的 罪魁 祸首 ， 如 果 指 令 2 的 执行 需要 依赖 指令 
1 的 结果 ， 我 们 就 说 这 两 条 指令 是 相关 的 ， 指 令 2 必 须 在 指令 1 后 面 执 
行 ， 无 法 乱 序 。 

下 图 描述 了 指令 间 的 相关 性 : 


指令 的 相关 性 
1。 寄 存 器 相关 


当 两 条 语句 没有 共用 寄存 器 时 ， 它 们 之 间 是 不 相关 的 ， 而 当 两 条 
语句 共用 寄存 器 时 ， 它 们 就 有 可 能 相关 。 

我 们 以 x86 汇 编 来 看 看 指令 间 的 相关 性 。 

(1) 先 读 后 读 。 


ADD BX, ax ; 将 AX 和 BX 相 加 ， 存 放 到 Bx 中 (前 面 的 寄存 器 为 目的 寄存 器 ) 


ADD CX, AX ; 将 AX 和 Cx 相 加 ， 存 放 到 cx 中 


这 两 条 指令 实际 上 是 没有 相关 性 的 ， 调 转 一 下 执行 顺序 ， 对 结果 


没有 影响 。 


(2) 先 写 后 读 (Read-After-Write,，RAW) 。 
ADD BX， AX ; 将 AX 和 BX 相 加 ， 存放 到 BX 中 | 
ADD CX, BX ; 将 BX 和 Cx 相 加 ， 存放 到 CX 中 


这 两 条 指令 都 用 到 BX， 指 令 1 输 出 BX 给 指令 2 用 ， 它 们 之 间 有 数 


数据 相关 示例 
(3) 先 读 后 写 (Write-After-Read, WAR) 。 


| MOV AX, cx ; 将 CX 的 值 赋 给 AX 


这 两 条 指令 都 用 到 AX， 指 令 1 读 AX， 指 令 2 写 AX， 如 果 直 接 将 两 
条 语句 调转 ， 执 行 结果 自然 是 不 一 样 的 ， 因 此 它们 具有 相关 性 。 不 过 
如 果 仔 细 分 析 一 下 ， 这 两 条 语句 之 间 并 没有 数据 流向 ， 在 逻辑 上 并 没 
有 相关 性 ， 引 起 它们 相关 性 的 原因 在 于 : x86 处 理 器 对 程序 员 可 见 的 通 
用 寄存 器 太 少 了 ， 指 令 不 得 不 共用 寄存 器 ， 这 样 才 导 致 指令 间 存 在 相 
关 。WAR 和 RAW 相反 ， 因 此 这 种 相关 也 称 为 反 相 关 (Anti 
Dependencies) 。 

(4) 先 写 后 写 (Write-After-Write, WAW) 。 


MOV AX, BX 将 BX 的 值 赋 给 AX | 
MOV AX,， CX ; 将 CX 的 值 赋 给 AX 
这 两 条 指令 都 向 AX 中 写 ， 和 和 WAR 一样 ，WAW 的 两 条 指令 间 也 没 
有 数据 流动 ， 它 们 的 相关 是 因为 有 相同 的 输出 寄存 器 ， 因 此 被 称 为 输 
出 相关 (Output Dependencies) 。 
WAR 和 WAW 没 有 逻辑 上 的 相关 性 ， 只 是 由 于 共用 了 同一 个 寄存 
器 而 存在 相关 性 ， 它 们 被 称 为 伪 相 关 (False Dependencies) 或 者 名 字 
相关 (Name Dependencies) 。 


2 。 控 制 相关 
程序 中 有 很 多 条 件 跳 转 ， 如 下 面 这 个 例子 : 


| 


JNZ 是 个 条 件 跳 转 语句 ，XOR 指 令 的 执行 需要 依赖 于 JNZ 的 结 
果 ， 这 种 相关 性 是 由 指令 的 控制 流 决 定 的 ， 因 此 被 称 为 控制 相关 。 


4.3.3 ”去 除 指令 的 相关 性 


这 些 指令 的 相关 性 限制 了 指令 的 乱 序 调度 与 并 行 调度 ， 需 要 去 除 
这 些 相 关 以 达到 较 好 的 指令 调度 。 


1. 去 数据 相关 


数据 相关 在 代码 中 肯定 是 有 的 ， 如 果 每 条 语句 都 没有 数据 相关 ， 
那么 它们 就 不 能 组 合 起 来 完成 一 项 任务 。 不 过 ， 数 据 相 关 虽 然 不 能 完 
全 消除 ， 但 是 可 以 适当 减少 ， 如 这 段 代码 : 


Xm a+ bb; 
ET 
z=y+d; 


这 3 条 指令 都 是 相关 的 ， 如 果 改 成 这 样 : 


Xx a+b? 
y= C+ 
z + y; | 


第 1 条 和 第 2 条 指令 就 不 相关 了 。 
去 数据 相关 不 是 处 理 器 的 工作 ， 而 是 程序 员 或 者 编译 器 的 工作 。 


2。 去 控制 相关 


分 支 指令 的 跳 转 方向 不 确定 ， 后 面 的 指令 也 就 不 知道 该 不 该 执 
行 ， 就 像 股 票 一 样 ， 不 知道 以 后 是 涨 还 是 跌 。 上 股民 通常 会 预测 出 哪 只 
股票 涨 ， 然 后 买 这 只 股票 ， 如 果 涨 了 ， 那 就 欢 欢 喜 喜 ， 如 果 跌 了 ， 那 
就 只 能 训 叹 了 。 

处 理 器 也 可 以 借用 这 种 投机 行为 ， 预 测 出 跳 转 指令 的 目标 地 址 ， 
假设 按照 这 条 路 径 开 始 执行 ， 跳 转 后 面 的 指令 甚至 可 以 提前 到 跳 转 指 
令 的 前 面 去 乱 序 执行 ， 如 果 预 测 正确 ， 那 当然 是 此 大 欢喜 ， 如 果 预 测 
失败 ， 就 从 头 再 来 。 这 种 方式 是 一 种 典型 的 投机 行为 ， 因 此 也 叫 投 机 
执行 (Speculative Execution) 。 由 于 分 支 预测 的 准确 性 通常 能 达到 
98% 以 上 ， 这 种 投机 行为 相当 的 划算 ， 至 少 比 做 散户 划算 多 了 。 

分 支 指令 也 就 两 种 路 径 : 要 么 跳 要 么 不 跳 。Eager execution 方 法 将 
分 支 的 两 条 路 径 都 执行 ， 防 止 预测 失败 ， 这 是 典型 的 一 颗 红 心 ， 两 手 
准备 ， 不 过 这 种 方式 对 资源 的 损耗 太 大 ， 一 般 的 乱 序 执行 内 核 都 不 使 
用 这 种 方式 ， 而 是 预测 一 条 路 径 ， 投 机 执行 。 


3。 去 伪 相 关 一 让 伪 军 投诚 


什么 名 字 前 面 加 个 伪 总 不 太 好 ， 就 像 日 伪 军 ， 虽然 不 是 日 本 军 ， 
但 是 也 是 敌 军 ， 也 需要 被 消 炙 。 好 在 伪 军 很 容易 投诚 ， 不 像 日 军 那 样 
瑞 固 ， 效 死 效 忠 天 星 。 在 指令 相关 中 ， 效 据 相 关 融 是 日 车 ， 伪 相 天 融 
是 伪 车 ， 可 以 想 办 法 让 伪 相 天 投诚 ， 变 成 不 相关 。 


数据 相关 
比较 奖 固 


数据 相关 和 伪 相 关 

处 理 器 的 ISA 寄 存 器 数目 通常 较 少 ， 编 译 器 在 将 程序 中 的 变量 映 
射 到 寄存 器 时 ， 会 导致 多 个 变量 对 应 同一 个 寄存 器 ， 这 样 即使 是 不 相 
关 的 指令 ， 也 会 使 用 同样 的 寄存 器 ， 导 致 了 名 字 相 关 。 知 道 了 这 个 病 
根 ， 我 们 就 能 对 症 下 药 ， 将 ISA 寄 存 器 重新 映射 到 处 理 器 内 部 的 物理 
寄存 器 ， 由 于 物理 寄存 器 较 多 ， 相 同 的 ISA 寄 存 器 可 以 映射 到 不 同 的 
物理 寄存 器 ， 经 过 映射 后 ， 新 的 指令 就 能 使 用 不 同 的 物理 寄存 器 ， 指 
令 间 的 相关 性 也 就 消除 了 。 


程序 C=A+B 
寄存 器 映射 了 


指 今 add a2, a3, al add a3, a4, a2 


寄存 器 重 命名 


内 部 寄存 器 


新 指令 add bl, b2, b3 add b4, bs, b6 
引起 伪 相 关 的 原因 及 解决 方法 举例 

在 上 页 图 中 ， 两 条 语句 C= 二 A 十 B 和 F=DD 十 E 本 来 是 不 相关 的 ， 但 

是 由 于 ISA 寄 存 器 太 少 ， 变 量 映射 到 同一 个 寄存 器 上 ， 采 用 寄存 器 重 


命名 ， 将 ISA 寄 存 器 映射 到 新 的 物理 寄存 器 上 ， 这 样 新 的 指令 就 不 再 
相关 了 。 


4. 寄存 器 重 命名 


寄存 器 不 能 随便 更 改名 字 ， 否 则 原来 的 数据 依赖 关系 被 打 乱 ， 会 
导致 错误 的 执行 结果 ， 那 么 怎样 才能 既 保留 原先 的 数据 依赖 天 系 ， 又 
能 将 没有 数据 依赖 性 的 指令 的 寄存 器 改名 字 呢 ? 

这 里 介绍 一 种 在 处 理 器 中 经 常 实现 的 策略 : 

(1) 将 每 条 指令 的 目的 寄存 器 映射 到 新 的 物理 寄存 器 。 

(2) 指令 的 源 寄 存 器 映射 为 ISA 寄 存 器 最 近 映 射 到 的 那个 物理 寄 
存 器 。 

(3) 当 本 条 指令 完成 后 ， 该 目的 寄存 器 映射 的 更 早 的 物理 寄存 器 
束 可 以 释放 了 。 

文字 还 是 太 抽象 ， 看 图 有 真相 : 


RI1, R2, R3. R4 
F1. F2, F3, F4 
1 add R3, R1, R2 El FZ F3; ES dd F5. Fl1. F2 
数据 相关 这 数据 相关 
2 add R4. R3, R2 F1. F2, F5, F6 addF6 FS F2 
反 相 关 2 不 相关 
3 add R2. R1, R3 F1, F7. F5, F6 add F7 Fl FS | 
输出 相关 《人 2 不 相关 
4 add R2, R1, R4 F1, F8, F5, F6 add F8. F1. F6 pre 
数据 相关 、 io ne 及 数据 相关 
5 add R4, R2, R3 F1, F8.F5. F9 add P92, FS, FS 
寄存 器 重 名 示例 


在 这 个 例子 中 ， 指 令 的 第 一 个 寄存 器 是 目的 寄存 器 ， 后 两 个 是 源 
寄存 器 ，R1、R2、R3、R4 是 ISA 寄 存 器 ，F1...F16 是 物理 寄存 器 。 

R1，R2，R3，R4 一 开始 被 映射 到 F1，F2，F3，F4， 第 1 条 指令 的 
目的 寄存 器 是 R3， 因 此 将 R3 重 新 映射 到 F5， 图 中 的 粗 体 表示 对 目的 寄 


存 器 重新 映射 。 第 2 条 指令 的 源 操作 数 需要 访问 R3， 就 使 用 R3 的 最 新 
映射 值 一 一 F5， 这 样 就 保证 了 指令 2 和 指令 1 的 数据 相关 性 。 

指令 3 和 指令 2 有 反 相 关 ， 将 指令 3 的 R2 映 射 为 F7， 这 样 指 令 3 和 指 
令 2 就 没有 相关 性 了 ， 即 使 指令 3 在 指令 2 前 面 执 行 ， 也 不 会 影响 指令 2 
的 结果 。 

指令 4 和 指令 3 有 输出 相关 ， 经 过 寄存 器 重 命 名 后 ， 指 令 4 和 指令 3 
的 R2 分 别 对 应 不 同 的 物理 寄存 器 ， 它 们 之 间 的 相关 性 就 去 除了 。 

同样 的 原理 ， 指 令 4 和 指令 5 的 相关 性 被 保留 。 

如 果 按 照 这 种 方式 映射 下 去 ， 物 理 寡 存 器 自然 会 被 使 用 完 。 
此 ， 需 要 实时 的 释放 ， 以 备 重 新 分 配 。R4 一 开始 映射 到 F4， 当 第 2 条 
指令 执行 完成 后 ，R4 的 值 就 在 F6 中 了 ， 以 后 访问 R4 时 ， 都 会 使 用 最 新 
的 F6， 而 不 会 使 用 F4， 这 样 F4 就 可 以 被 释放 了 。 

在 这 种 策略 中 ， 指 令 完 全 不 需要 访问 ISA 寡 存 器 ， 只 需要 访问 物 
理 寄 存 器 。 


4.3.4 ”处 理 器 的 乱 序 执行 


前 面 介 绍 了 乱 序 的 概念 及 去 相关 ， 这 里 开始 介绍 处 理 器 的 乱 序 执 
行 结 构 。 

1。Buffer 的 作用 一 一 去 耦合 

在 顺序 执行 内 核 中 ， 指 令 依 次 流 经 各 个 流水 线 单 元 ， 不 需要 进行 
缓存 ， 而 为 了 要 能 乱 序 执行 ， 首 先 需要 一 个 Buffer 来 缓存 还 没有 执行 


的 指令 ， 然 后 在 这 个 Buffer 中 去 调度 指令 的 执行 顺序 。 乱 序 执行 内 核 
的 基本 模型 如 下 : 


乱 序 执行 基本 结构 

现代 处 理 器 中 有 大 量 的 Buffer，Buffer 也 广泛 应 用 在 其 他 技术 领域 
及 生活 领域 中 ， 就 拿 电 冰箱 来 说 ， 电 冰箱 除了 冷冻 的 功能 外 ， 它 实际 
上 也 是 个 Buffer， 我 们 把 买 来 的 东西 放 进 去 ， 要 吃 时 ， 再 从 里 面 拿 。 

Buffer 有 两 大 功能 : 

(1) 去 耦合 。 

(2) 抗 波动 。 

如 果 没 有 电 冰 箱 ， 每 次 我 们 想 吃 东西 时 ， 都 要 去 超市 ， 用 专业 术 
语 来 讲 ， 这 就 是 耦合 性 太 强 了 ， 如 果 超 市 关门 了 怎么 办 ? 如 果 超 市 太 
远 了 怎么 办 ? 有 了 电 冰 箱 后 ， 从 超市 买 的 食物 就 放 在 电 冰 箱 中 ， 我 们 
就 直接 从 电 冰 箱 中 取 食 物 ， 而 不 需要 关注 超市 的 状况 了 。 电 冰箱 去 除 
了 人 和 超市 的 耦合 。 

正常 情况 下 ， 我 们 是 每 天 买 每 天 的 食物 ， 不 过 有 时 候 ， 我 们 知道 
明天 会 有 事情 ， 没 有 时 间 买 食物 ， 因 此 今天 就 把 今 、 明 两 天 的 食物 都 
买 了 ， 这 样 明 天 就 不 会 狐 肚 子 了 ， 这 就 是 电 冰 箱 的 抗 波动 功能 。 


电 冰 箱 的 去 耦合 


电 冰 箱 (Buffer) 起 抗 波 动作 用 


电 冰 箱 的 抗 波动 
在 上 面 的 图 中 ， 粗 线条 表示 东西 多 ， 细 线条 表示 东西 少 ， 有 时 候 
买 的 多 ， 有 时 候 买 的 少 ， 有 时 候 吃 的 多 ， 有 时 候 吃 的 少 ， 电 冰箱 的 进 
和 出 都 会 存在 一 定 的 波动 ， 电 冰箱 起 到 了 抗 波动 功能 ， 保 证 了 我 们 在 
想 吃 时 都 有 东西 吃 。 


2. 指令 调度 


在 前 面 乱 序 设置 陷阱 的 例子 中 ， 如 果 没 有 那个 聪明 的 士兵 ， 乱 序 
也 就 无 从 谈 起 。 同 样 ， 处 理 器 的 乱 序 执行 内 核 也 需要 一 个 调度 器 ， 分 
析 指 令 间 的 相关 性 ， 分 析 指 令 什 么 时 候 能 开始 执行 。 

指令 什么 时 候 能 开始 执行 呢 ? 

对 于 一 条 指令 来 说 ， 它 有 操作 码 和 操作 数 ， 操 作 码 描述 指令 要 做 
什么 ， 处 理 器 会 安排 一 个 功能 单元 (function unit) 去 执行 它 。 操 作 数 
凋 述 指令 要 处 理 什么 数据 ， 经 过 寄存 器 重 命名 后 ， 目 的 寄存 器 总 是 新 
的 ， 因 此 只 需要 关注 产 操 作 数 是 否 准备 好 即 可 。 所 以 ， 指 令 能 否 开始 
执行 ， 依 赖 于 两 个 条 件 : 

(1) 是 否 有 空 闪 的 功能 单元 去 执行 这 条 指令 。 

(2) 该 指令 的 源 操 作 数 是 否 已 经 准备 好 。 

只 要 满足 这 两 条 要 求 ， 指 令 就 可 以 去 执行 ， 而 不 需要 等 待 前 面 的 
指令 完成 。 这 样 处 理 器 就 完成 了 乱 序 调度 及 并 行 调度 。 

以 前 面 经 过 寄存 器 重 命 名 的 指令 为 例 ， 


序号 指令 源 操作 数 依赖 性 描述 ”执行 顺序 
| add FS5, F1, F2 假设 F1、F2 已 准备 好 1 
2 add F6, FS, F2 FS 需要 依赖 指令 1 
3 add F7, F1, FS FS 需要 依赖 指令 ] 
4 add F8, F1, F6 F6 需要 依赖 指令 2 3 
5 add F9, F8, F5 FS 需要 依赖 指令 1 4 


F8 需要 依赖 指令 4 


处 理 器 会 记录 指令 源 操作 数 的 准备 状态 ， 当 指令 1 完成 后 ， 处 理 器 
会 通知 所 有 依赖 F5 的 指令 ，F5 已 经 准备 好 了 ， 指 令 2 需 要 的 两 个 产 操 
作 数 F5 和 F2 都 已 准备 好 ， 它 就 可 以 被 发 送 到 指令 的 执行 队列 中 去 执 
行 。 同 样 ， 指 令 3 也 可 以 准备 执行 ， 如 果 处 理 器 中 有 多 个 加 法 单元 ， 指 
令 2 和 指令 3 就 可 以 同时 执行 。 指 令 2 完 成 后 ，F6 也 准备 好 了 ， 指 令 4 就 
可 以 去 执行 ， 指 令 4 执 行 完 后 ，F8 就 准备 好 了 ，F5 早 就 准备 好 了 ， 指 
令 5 就 可 以 去 执行 。 

在 这 个 调度 的 例子 中 ，5 条 指令 4 个 Cycle 就 可 以 完成 ， 而 使 用 顺序 
内 核 ， 则 需要 5 个 Cycle。 

处 理 器 内 部 需要 一 个 Buffer 来 缓存 指令 ， 以 供 乱 序 调度 ， 这 个 
Buffer 就 是 保留 站 (Reservation Station) ， 完 成 寄存 器 重 命名 后 的 指令 
被 放置 在 保留 站 中 ， 等 到 操作 数 和 功能 单元 都 准备 好 时 ， 保 留 站 中 的 
指令 就 能 被 分 派出 去 执行 。 


3。 指令 的 顺序 提交 


在 指令 的 执行 过 程 中 ， 通 常会 有 中 断 和 异常 产生 ， 如 在 下 面 的 这 
个 例子 中 ， 
中 断 | 


指令 buffer ADD XORK MOV INC 


中 断 例子 


XOR 指 令 执 行 完 后 ， 来 了 一 个 中 断 ， 中 断 处 理 一 般 都 是 将 处 理 器 
的 ISA 寄 存 器 压 栈 ， 执 行 中 断 服 务 程序 ， 然 后 再 退回 来 执行 中 断后 面 
的 指令 。 精 确 中 断 (Precise Interrupt) 要 求 中 断 前 的 指令 都 执行 ， 中 
断后 的 指令 都 没有 执行 ， 而 在 乱 序 执行 内 核 中 ，MOV、INC 指 令 有 可 
能 提前 到 XOR 前 面 执行 ， 那 么 怎么 来 实现 精确 中 断 呢 ? 

解决 方法 就 是 : 在 指令 乱 序 执行 之 后 ， 再 加 一 个 步骤 : 指令 顺序 
提交 (In-order commit) 。 乱 序 执行 后 ， 指 令 的 结果 虽然 出 来 了 ， 但 
是 这 个 结果 并 没有 立即 提交 到 ISA 寄 存 器 中 ， 而 是 先 缓存 起 来 ， 只 有 
当前 指令 前 面 的 指令 提交 后 ， 这 条 指令 才能 提交 。 

指令 的 顺序 提交 也 能 解决 投机 执行 出 错 的 问题 ， 如 下 图 所 示 : 

~ 

指令 buffer ADD JNZ MOV XOR 


投机 执行 的 示意 图 

分 支 预 测 单元 预测 到 JNZ 跳 转 到 XOR 处 执行 ， 乱 序 执行 让 XOR 指 
令 在 ADD 前 面 执行 ， 不 过 天 有 不 测 风云 ， 处 理 器 执行 到 JNZ 时 ， 发 现 
分 支 预测 单元 预测 错 了 ， 实 际 上 应 该 执行 的 是 MOV 这 个 分 支 ， 使 用 顺 
序 提交 策略 ，JNZ 后 面 指 令 的 结果 都 没有 提交 ， 可 以 直接 抛弃 ， 重 新 
开始 执行 MOV 这 条 路 径 即 可 。 

为 了 实现 指令 的 顺序 提交 ， 处 理 器 内 部 使 用 了 一 个 Buffer， 叫 做 
重 排序 缓冲 区 (ROB，Re-order Buffer) ， 多 数 的 学 术 文 章 都 叫 这 个 名 
字 ， 龙 必 把 这 个 buffer 叫 做 Reorder Queue， 简 称 ROQ (总 要 有 所 区 别 
听 ) 。 

每 条 完成 寄存 器 重 命名 的 指令 都 要 送 到 ROB 中 ，ROB 中 的 指令 按 
照 初 始 顺 序 存放 ， 指 令 经 乱 序 执行 后 ， 只 是 修改 了 处 理 器 内 部 的 物理 
寄存 器 ， 并 没有 修改 处 理 器 的 ISA 寄 存 器 (汇编 指 令 能 看 到 的 寄存 
器 ) ， 指 令 在 提交 时 ， 按 照 ROB 中 的 顺序 ， 顺 序 地 修改 处 理 器 的 ISA 
寄存 器 。 


4. 乱 序 执行 总 结 


简单 来 说 ， 指 令 在 乱 序 执行 内 核 中 的 处 理 过 程 可 分 为 3 个 步 又 : 
顺序 发 射 一 乱 序 执行 、 一 ~ 顺序 提交 


指令 乱 序 执行 步骤 
乱 序 执行 步骤 工作 内 容 
In-order issue 顺序 发 射 ， 负 责 安排 任务 
Out-of-order execution 乱 序 执行 ， 负 责 执行 任务 
In-order commit 顺序 提交 ， 负 责 更 新 结果 


下 图 为 乱 序 执行 内 核 的 基本 结构 图 : 


乱 序 执行 内 核 结 构图 


取 指 、 译 码 、 分 支 预测 和 顺序 执行 内 核 一 样 ， 译 码 后 ， 指 令 经 过 
寄存 器 重 命名 ， 去 除 伪 相关 ， 然 后 进入 指令 分 派 模 块 ， 指 令 分 派 模块 
决定 什么 时 候 将 指令 分 派 到 什么 执行 单元 去 执行 。 指 令 同 时 会 进入 指 
令 提 交 单 元 ， 它 记录 了 指令 的 原始 顺序 ， 用 于 指令 的 顺序 提交 ， 同 时 
它 会 将 分 支 指令 的 实际 执行 信息 更 新 到 分 支 预测 单元 。 

乱 序 执行 比 顺 序 执行 需要 耗费 更 多 的 处 理 器 资源， 通常 只 有 高 端 
处 理 器 才 会 使 用 。 最 近 ，ARM Cortex-A9 也 引入 了 高 端 处 理 器 常用 的 
乱 序 执 行 (Out-of-Order Execution ) 和 投机 执行 (Speculative 
Execution) 。 


I 处 理 器 并 行 设计 一 一 并 行 ， 提 高 性 能 的 不 二 
妆 | 


Flynn 分 类 


处 理 器 就 是 处 理 一 系列 指令 和 数据 的 设备 ， 因 此 ， 从 指令 和 数据 
这 两 个 维度 ， 可 以 对 处 理 器 的 系统 结构 分 类 。1966 年 ，Flynn 将 处 理 器 
系统 结构 分 成 了 如 下 4 类 : 


指令 


多 指令 ， 单 数据 多 指令 ， 多 数据 
(MISD) (MIMD) 


单 指令 ， 单 数据 单 指令 ， 多 数据 
( 


(SISD) SIMD) 


数据 


Flynn 分 类 


SISD (single instruction single data) ， 一 次 处 理 一 条 指令 ， 一 条 


目 令 处 理 一 份 数据 ， 早 期 的 处 理 器 都 是 这 种 形式 。 


SIMD (single instruction multiple data) ， 一 次 处 理 一 条 指令 ， 一 
条 指令 能 处 理 多 份 数 据 ， 这 种 方式 称 为 数据 并 行 ， 现 在 性 能 稍微 强 一 
点 的 处 理 器 都 具备 这 种 功能 。 

MISD (multiple instruction single data) ， 一 次 处 理 多 条 措 令 ， 多 
条 指令 处 理 一 份 数 据 ， 这 种 结构 没有 实际 意义 。 

MIMD (multiple instruction multiple data) ， 一 次 处 理 多 条 指令 ， 
多 条 指令 能 处 理 多 条 数据 ， 这 种 方式 称 为 指令 并 行 ， 高 性 能 处 理 器 都 
具备 这 个 功能 。 

下 图 描述 了 指令 并 行 性 、 数 据 并 行 性 的 示例 : 

并 行 ， 是 提高 处 理 器 性 能 的 不 二 法 门 ， 下 面 ， 我 们 就 来 详细 介绍 
处 理 器 的 各 种 并 行 性 。 


SISD、SIMD、MIMD 关 系 


4.5 指令 并 行 (mstruction Level Parallelism) 


4.5.1 指令 并 行 的 “ 营 » 和 “ 蓝 营 ” 


程序 是 由 一 系列 指令 组 成 的 ， 如 果 要 节省 执行 的 时 间 ， 最 直接 的 
方法 就 是 将 指令 并 行 起 来 执行 。 在 处 理 器 内 部 通常 有 很 多 的 执行 单 
元 ， 如 加 法 单元 、 乘 法 单元 、 内 存 访 问 单元 、 浮 点 运算 单元 等 ， 每 种 
执行 单元 负责 一 类 具体 的 指令 。 在 前 面 介 绍 的 乱 序 执行 内 核 中 ， 每 个 


Cycle 最 多 只 发 射 一 条 指令 ， 即 使 有 时 很 多 指令 并 行 执行 ， 平 均 的 指令 
执行 效率 也 最 多 只 有 每 个 Cycle 一 条 指令 。 如 果 发 射 单元 一 次 能 发 射 多 
条 指令 ， 那 么 就 有 更 多 指令 能 并 行 处 理 了 ， 因 此 指令 并 行 也 称 为 multi- 
issue 〈 多 发 射 ) 。 

哪些 指令 需要 并 行 处 理 ， 这 需要 做 判决 ， 根 据 判决 的 地 方 不 同 ， 
multi-issue 又 分 成 了 两 个 阵营 : Superscalar 和 VLIW。 

世上 没有 无 绿 无 故 的 爱 ， 也 没有 无 缘 无 故 的 恨 ， 没 有 无 绿 无 故 的 
Superscalar， 也 没有 无 缘 无 故 的 WLIW。 Superscalar 和 和 VLIW 也 是 随 着 
历史 趋势 慢 慢 发 展 起 来 的 。 

Superscalar 是 由 super ( 超 ) 十 scalar (标量 ) 组 成 ， 标 量 处 理 器 时 
代 的 指令 都 是 串 行 执行 的 ， 处 理 器 为 了 兼容 原 有 的 程序 ， 但 同时 又 要 
提高 程序 执行 效率 ， 就 在 处 理 器 内 部 做 了 指令 的 并 行 化 处 理 。 这 就 是 
超标 量 处 理 器 的 基本 原型 。 

处 理 器 
并 行 的 指令 处 理 
申 行 的 指令 输入 
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Superscalar 的 指令 并 行 化 在 处 理 器 内 部 实现 
如 果 将 指令 的 并 行 化 显示 的 声明 在 指令 格式 中 ， 处 理 器 只 是 傻 呼 
呼 的 执行 ， 这 种 方式 称 为 VLIW (Very Long Instruction Word) 。 指令 
的 并 行 化 可 由 编译 器 完成 ， 也 可 以 由 程序 员 手 工 写 并 行 汇编 代码 实 
现 。 


处 理 规 
并 们 指令 袖 人 开行 的 指令 处 理 
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VLIW 的 指令 并 行 化 在 处 理 器 外 部 实现 
VLIW 的 典型 代表 是 DSP。TIDSP 所 使 用 的 汇编 代码 格式 如 下 : 


LDH ‘D1 *#A5++, AO 
11 LDH .D2 #B6++, Bl] 


指令 前 面 的 “ | ”表示 这 条 指令 和 上 条 指令 在 同一 个 Cycle 执行 ， 如 
果 没 有 “ | ”， 则 表示 这 条 指令 在 下 一 个 Cycle 执行 。 在 机 器 码 中 ， 每 条 
指令 占 32 bit, “| ”在 第 0 bit 表 示 ， 处 理 器 只 需 按照 指令 规则 执行 即 
可 。 

早期 的 汇编 语言 都 没有 单独 的 字段 描述 当前 指令 是 否 和 其 他 指令 
并 行 执行 ， 处 理 器 在 发 展 时 ， 为 了 保证 指令 集 的 兼容 性 ， 都 采用 了 
Superscalar 结 构 ， 如 x86、MIPS、ARM 等 。 Superscalar 的 代价 是 处 理 器 
内 部 有 不 少 的 资源 用 于 将 串 行 的 指令 序列 转换 成 可 以 并 行 的 指令 序 
列 ， 这 大 大 的 增加 了 处 理 器 的 功 耗 和 面积 。 而 后 来 产生 的 新 的 措 令 集 
的 处 理 器 ， 大 都 采用 了 VLIW 结 构 ， 如 Tilera 和 Tensilica 公 司 的 处 理 
十 。 

在 Multi-issue 结 构 中 ， 不 乱 序 也 能 实现 一 定 程度 的 并 行 。 例 如 ， 
处 理 器 内 部 有 两 条 执行 路 径 ， 一 条 路 径 执行 浮 点 指令 ， 一 条 路 径 执行 
整数 指令 ， 由 于 浮 点 指令 和 整数 指令 分 别 使 用 不 同 的 寄存 器 ， 它 们 没 
有 相关 性 ， 可 以 并 行 执行 。 不 过 ， 乱 序 执行 的 结构 ， 更 能 提高 指令 的 
并 行 性 ， 当 然 也 需要 更 多 的 硬件 资源 。 

下 面 我 们 分 别 介 绍 Superscalar 的 典范 
TI C6000 DSP。 


Intel P4 CPU 及 VLIW 的 


ee 
典范 


4.5.2 ”Superscalar 处 理 器 实例 一 一 Intel P4 CPU 


1。P4 CPU 结构 


奔 4 处 理 器 是 Intel 的 经 典 之 作 ， 它 是 采用 乱 序 执行 内 核 的 超标 量 处 
理 器 。P4 采 用 的 微 架构 称 为 NetBurst， 基 本 结构 如 下 : 


[To memory bus 
Memory subsystem Execution unit 
System interface 
存储 器 


执行 单元 
系统 


Integer and floating-point 
execution units 


乱 序 


控制 


前 端 


Branch prediction 
unit 


Front end Out-of-order control 


奔 4 处 理 器 微 架构 的 基本 结构 
奔 4 处 理 器 微 架构 被 分 成 了 4 大 部 分 : 
(1) 存储 子 系统 (Memory subsystem) 。 
(2) 前 端 (Front end) 。 
(3) 乱 序 控制 (Out-of-order control) 。 
(4) 执行 单元 (Execution unit) 。 
存储 子 系统 包含 了 片 内 的 Cache，Cache 是 处 理 器 内 部 的 存储 单 
元 ， 存 储 指 令 和 数据 。Cache 也 是 微 架构 的 重要 组 成 部 分 ， 不 过 相对 比 
较 独 立 ， 留 待 下 章 细 说 。 


指令 在 处 理 器 内 部 的 执行 过 程 ， 可 以 分 为 前 端 和 后 端 ， 前 端 准备 
指令 ， 后 端 执行 指令 。 前 端 包括 取 指 、 译 码 、 分 支 预测 等 单元 ， 后 端 
包括 执行 单元 和 乱 序 控制 |。 

执行 单元 的 工作 就 是 傻 呼 呼 的 运算 ， 而 指令 的 乱 序 调度 交 给 了 乱 
序 控制 部 分 。 


2。 译 码 


在 x86 处 理 器 中 ， 译 码 单元 的 工作 就 是 将 x86 措 令 翻 译 成 类 似 RISC 
的 micro operations ( 微 操 作 ) ， 简 称 uop。 

P4 是 超标 量 处 理 器 ， 一 次 能 处 理 多 条 指令 ， 自 然 也 要 一 次 对 多 
指令 进行 译 码 。 对 于 定 长 编码 的 指令 ， 每 条 指 令 的 bi 数 是 固定 的 ， 多 
增加 几 套 译 码 电路 就 能 实现 多 条 指令 并 行 的 译 码 ， 如 下 图 所 示 : 


定 长 编码 指令 的 译 码 
不 过 ，x86 指 令 是 变 长 编码 的 ， 指 令 长 度 从 1 一 15 bytes 不 等 ， 根 本 
就 不 知道 哪 几 个 bytes 是 第 一 条 指令 的 ， 哪 几 个 bytes 是 第 二 条 指令 的 ， 
也 就 无 从 解 起 。 


一 我 从 哪里 开 牧 解 ? = 


变 长 编码 指令 的 译 码 难题 


在 AMD 的 处 理 器 中 ， 通 常 采 用 预 译 码 (Predecode) 的 方式 来 解决 
这 个 难题 ， 指 令 从 内 存 读 入 到 Cache 中 时 ， 就 开始 预 解码 ， 得 出 预 译 码 
标识 ， 预 译 码 标识 包括 指令 的 起 始 位 置 、 需 要 译 出 的 uop 数 目 、 操 作 码 
等 信息 。 预 译 码 标识 连同 指令 一 起 存储 在 指令 Cache 中 ， 在 正式 译 码 时 
工作 难度 就 减轻 了 。 

Intel 的 处 理 器 则 采用 多 级 译 码 流水 线 的 方式 来 实现 译 码 。 第 一 级 
先 检测 出 指令 的 起 始 和 结束 位 置 ， 第 二 级 将 指令 解码 为 uop。 

一 条 x86 CISC 指 令 通 常 对 应 多 条 uop。 当 一 条 CISC 指 令 生 成 的 uop 
数目 多 于 4 条 时 ， 就 将 这 些 CISC 指 令 对 应 的 uop 存 储 在 micro-ROM 

(uROM) 中 ， 解 码 时 使 用 查 表 的 方式 从 micro-ROM 中 得 到 ， 这 样 就 
简化 了 复杂 指令 的 译 码 过 程 。 


3。Trace cache 


在 P4 处 理 器 中 ， 解 码 后 的 uop 被 存储 在 Trace Cache 中 。 这 个 Trace 
Cache 和 一 般 的 Cache 有 点 不 一 样 ， 在 一 般 的 Cache 中 ， 指 令 的 存储 顺序 
和 内 存 中 的 指令 顺序 是 一 样 的 ， 而 Trace Cache 中 的 指令 顺序 是 指令 的 
执行 顺序 ， 而 不 是 指令 的 地 址 顺序 。 

下 面 这 个 程序 中 ， 包 含有 跳 转 措 令 : 


jmp Tl; 跳 转 到 Tl 处 


store 


指令 在 普通 Cache 上 存放 的 位 置 根据 程序 地 址 决定 ， 指 令 这 样 存 


Cache line0 


Cache line 1 


普通 Cache 的 存储 方式 
而 在 Trace Cache 中 ， 指 令 的 存储 格式 如 下 : 


Trace Cache 


Cache line 0 load jmp XOT 


Trace Cache 的 存储 结构 
在 P4 中 ， 一 个 Trace Cache line 包 含 6 条 uop。 
Trace Cache 与 传统 Cache 有 两 点 不 同 : 
(1) Trace Cache 存 储 的 是 译 码 之 后 的 微 操 作 ， 而 不 是 x86 指 令 。 
这 样 执 行 循环 代码 时 ， 就 省 了 指令 的 译 码 过 程 。 
(2) Trace Cache 存 储 的 微 操 作 是 按照 执行 顺序 存储 的 ， 而 不 是 指 
令 顺 序 。 在 超标 量 处 理 器 中 一 次 取 多 条 指令 时 ， 减 少 了 Cache line 的 访 
问 。 


4. 前 端 流水 线 


Fetch Queue Decode : Queue Cache Fill : vop Queue 


L2cache : Trace Cache 


前 端 流水 线 (Trace Cache miss 时 ) 

一 开始 ， 前 端 从 L2 Cache 中 读 指令 ， 一 次 读 64bit， 取 好 的 指令 
在 一 个 队列 (Queue) 中 ， 也 即 Buffer 中 ， 前 面 我 们 有 谈 到 Buffer 的 作 
用 ， 它 隔离 了 前 后 两 个 步 台 ， 并 对 速度 进行 了 平滑 。Decode 单 元 从 队 
列 中 取 指 令 进 行 译 码 ， 译 码 后 的 指令 也 放 在 一 个 队列 中 ， 然 后 再 按照 
uop 的 执行 顺序 放 在 Trace Cache 中 ， 然 后 再 从 Trace Cache 中 取出 uop 放 
在 uop Queue 中 ，uop Queue 为 连接 前 端 和 后 端的 桥梁 。 

当 uop 已 经 在 Trace Cache 中 时 ， 就 不 需要 再 从 L2 中 取 指 令 了 ， 直 
接 从 Trace Cache 中 取 uop 即 可 。 所 需 的 指令 在 Trace Cache 中 时 ， 称 为 
Trace Cache hit (命中 ) ， 所 需 的 指令 不 在 Trace Cache 中 时 ， 称 为 Trace 
Cache miss (未 命中 ) 。Trace Cache hit 时 的 前 端 流 水 线 就 简化 为 : 


Fetch uop Queue 


-gO 


Irace cache : 


前 端 流水 线 (Trace Cache hit 时 ) 
除了 这 些 基 本 的 模块 之 外 ， 处 理 器 在 根据 地 址 取 指 令 时 ， 需 要 进 
行 虚 地 址 、 实 地 址 转换 ， 使 用 到 TLB (Translation Lookaside 
Buffer) ; P4 处 理 器 中 ， 有 两 个 分 支 预测 单元 ， 一 个 用 于 预测 指令 的 
执行 路 径 ; 另 一 个 用 于 预测 uop 的 执行 路 径 。 


5。 后 端 流水 线 


uop (CuUcwec Rename Oueue Schedule Register Execute LI1 Cache Regtster Retire 
Read Write 
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后 端 流水 线 
后 端 和 前 端的 桥梁 就 是 uop Queue， 当 uop 进 入 后 端 时 ， 首 先 要 进 
人 
每 条 进来 的 uop 要 占 一 个 位 置 ， 如 它 需要 在 ROB (Re-order Buffer) 中 
有 一 个 位 置 ， 远 辑 寄 存 器 需要 使 用 到 物理 寄存 器 ， 内 存 操作 需要 使 用 
到 Load/Store Buffer 等 ， 如 果 资 源 不 可 用 ，Allocate 就 处 于 等 待 。 然 后 
uop 会 被 寄存 器 重 命 名 ， 在 P4 处 理 器 中 ，8 个 通用 寄存 器 能 使 用 128 个 
物理 寄存 器 ， 还 辑 寄存 器 和 物理 寄存 器 之 间 的 映射 关系 被 保存 在 RAT 
(Register Alias Table) 中 。 
指令 的 调度 《Schedule) 是 乱 序 执行 内 核 的 核心 ， 调 度 器 根据 uop 
操作 数 的 准备 情况 和 执行 单元 的 准备 情况 决定 uop 什 么 时 候 开始 执行 。 
内 存 的 访问 和 ALU 指 令 的 运算 分 别 放 在 不 同 的 队列 中 。 
调度 器 连接 了 4 个 Dispatch Ports 《分派 口 ) ， 不 同类 型 的 指令 由 不 


同 的 Dispatch Port 分 派 ， 如 下 图 所 示 : 
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P4 处 理 器 的 执行 单元 


Exec Port 0 和 Exec Port 1 用 于 分 派 ALU uop ，Load Port 用 于 分 派 
Load uop ，Store Port 用 于 分 派 Store uopo ALU (double speed) 表示 
Exec Port 每 半 个 Cycle 就 能 分 派 1 个 简单 的 ALU uop， 于 是 在 最 理想 的 
情况 下 ，Exec Port 0 和 Exec Port 1 每 个 Cycle 分 别 发 射 两 条 uop ，Load 
Port 和 Store Port 每 个 Cycle 分 别 发 射 1 条 uop， 所 以 1 个 Cycle 最 多 能 发 射 6 
条 uop。 不 过 这 只 是 理论 上 的 情况 ， 实 际 情 况 由 于 指令 的 依赖 性 ， 远 远 
达 不 到 6 条 uop 并 行 。 实 时 上 ， 处 理 器 流水 线 每 个 阶段 能 并 行 处 理 的 最 
大 指令 数 都 不 一 样 ， 如 Trace Cache 一 个 Cycle 输出 3 条 uop ， 因 此 Intel 处 
理 器 几乎 在 每 个 阶段 都 有 Buffer 来 隔离 它们 之 间 的 速率 偏差 。 

后 面 的 Register Read、 Execute、L1 Cache (MEM) 、 Register 
Write 和 经 典 的 MIPS 5 级 流水 线 类 似 。 

乱 序 执 行内 核 的 最 后 一 步 ， 就 是 Retire (退出 ) ， 它 负责 更 新 ISA 
寄存 器 状态 ， 指 令 按 照 顺序 退出 乱 序 执行 内 核 。Allocate、 Register 
Rename、Schedule、Retire 组 成 了 乱 序 控制 。 

P4 处 理 器 实际 的 流水 线 达 到 了 20 级 ， 比 上 面 的 介绍 要 更 为 复杂 。 


4.5.3 VLIW 处 理 器 实例 一 一 TI C6000 DSP 


1。. DSP 的 应 用 


Intel 在 20 世 纪 90 年 代 “Intel inside” 的 造势 ， 将 CPU 推 向 了 前 台 ， 而 
DSP 则 一 直 默 默 地 在 后 台 奉 献 ， 不 为 人 们 熟知 。 如 果 说 CPU 是 电脑 的 
大 脑 ， 那 么 DSP 就 是 手机 的 心脏 。 

手机 是 我 们 每 人 必 备 的 贴身 伴侣 ，2G 通 信 时 代 成 就 了 3 家 公司 : 
爱立信 做 局 端 设备 ， 诺 基 亚 做 手机 ， 德 州 仪 器 做 DSP。 手 机 中 的 
DSP， 承 包 了 一 部 分 无 线 信 号 的 处 理 、 语 音信 号 的 处 理 、 图 像 信号 的 
处 理 、 视 频 信号 的 处 理 。 德 州 仪器 (TI) 在 自己 的 DSP 心 片 中 ， 引 入 
了 ARM 内 核 ， 这 也 一 定 程 度 上 带动 了 ARM 的 繁荣 。 


除了 手机 之 外 ，DSP 也 会 用 在 多 媒体 终端 、 摄 像 头 、 基 站 等 领 
域 。 


2。. VLIW 得 名 


VLIW 机 制 由 Josh Fisher 发 明 ， 广 泛 使 用 在 RISC 体 系 的 处 理 器 上 ， 
DSP 是 VLIW 体 系 的 典型 代表 。TI 的 VLIW 对 原 有 的 VLIW 进 行 了 些许 
改进 ， 我 们 以 TI 的 VLIW 进 行 介绍 。 在 TI C6000 系 列 DSP 中 ， 处 理 器 有 
8 个 执行 单元 ， 理 论 上 每 个 周期 处 理 器 可 以 执行 8 条 指令 。 这 8 条 指令 被 
看 成 是 一 个 包 ， 取 指 、 译 码 、 执 行 单元 每 次 对 一 个 指令 包 进 行 操作 。 
VLIW 将 多 条 并 行 执行 的 指令 看 成 一 条 长 指令 ，VLIW 处 理 器 的 工作 过 
程 可 以 看 成 是 每 条 长 指令 的 取 指 、 译 码 、 执 行 过 程 ， 甚 长 指令 字 

(Very Long Instruction Word) 因此 而 得 名 。 
C6000 DSP VLIW 示 例 


已 人 


目 令 包 


1 个 


3。TIDSP 内 部 结构 


前 面 已 经 介绍 过 DSP 的 流水 线 结构 ，TIDSP 由 取 指 、 译 码 、 执 行 3 
部 分 组 成 ，VLIW 是 个 典型 的 顺序 (In-order) 执行 结构 ， 指 令 的 执行 
顺序 、 哪 些 指令 能 并 行 执行 已 经 在 指令 格式 中 描述 清楚 了 。 

DSP 的 特别 之 处 在 于 它 的 执行 单元 ， 下 图 是 C6000 DSP 执 行 单元 
的 结构 图 。 
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C6000 DSP 中 的 寄存 器 和 功能 单元 


.S1、 Ms I1、 .D1、.S2、.M2、.L2、.D2 是 DSP 的 功能 单元 (或 
执行 单元 ) ， 是 进行 运算 的 地 方 。 每 个 单元 能 完成 某 些 类 型 的 运算 ， 
各 下 图 所 示 : 
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每 个 功能 单元 支持 的 指令 

在 C6000 DSP 中 ， 寄 存 器 和 功能 单元 被 分 成 了 两 组 ， 左 边 一 组 ， 
右边 一 组 ， 为 什么 要 这 样 分 呢 ? 

如 果 寄 存 器 堆 和 8 个 功能 单元 相连 ， 则 需要 做 成 8 端口 的 寄存 器 
堆 ， 而 拆 成 两 部 分 后 ， 只 需要 做 成 4 端口 的 ， 功 能 单元 访问 另 一 边 寄存 
器 堆 时 ， 使 用 一 条 单独 的 链 路 进行 通信 。 这 种 做 法 能 降低 芯片 面积 和 
功 耗 。 在 Intel 处 理 器 中 ， 整 数 单元 和 浮 点 单元 也 是 分 开设 计 的 。 


4. TIDSP 的 指令 并 行 


DSP 最 重要 的 任务 是 执行 数字 信号 处 理 算 法 ， 数 字 信 号 处 理 中 的 
典型 算法 是 FIR 滤 疲 : 


Short cl[lcount}, x{count]; 
for {im=m0; i < COunNt; i++ 
{ 


sum += Cd * Xx[il]; 


DSP 的 执行 单元 也 是 为 了 最 快 实现 这 个 循环 而 设计 的 。 经 过 编译 
器 优化 后 ，loop kernel (全 速 并 行 的 阶段 ) 程序 口 下 : 


$ - 认 
PIPED L KERNEL 
LOOP: ADD L2 B8,B6,B6 
| ADD -Ll1 AG6,A1,A] 
| DOTP .M2X Ba4,A4,B8 
| DOTPZ M1X BS,AS 
及 S1 LOOP 
| € 30] SUB .S82 BO,~1,B0 
| LDDW D2T2 二 日 了 B5:B4 
| LDDW D1T1 A 5 :AA4 
$s # 


从 中 我 们 可 以 看 到 : 8 个 功能 单元 全 速 并 行 执行 ， 效 率 达 到 最 优 。 
怎样 才能 达到 这 么 高 的 并 行 度 呢 ? 
编译 器 采用 了 优化 循环 的 两 种 做 法 : 循环 展开 和 软件 流水 。 


译 器 在 处 理 这 个 循环 时 ， 将 这 个 循环 展开 了 4 次 : 


for (i=0; i < count; i+=4) 
Um 二 | 2 
3m 二 = CTi+l]j 车 X[ 主 +l] 
m [ XxX[ 主 +2] 


sum += CcC[i+3] * x[i+3]; 


DSP 中 有 很 多 的 功能 单元 ， 循 环 展开 后 ， 就 可 以 充分 利用 这 些 功 
能 单元 一 次 处 理 更 多 的 数据 。count 如 果 不 是 4 的 整数 倍 ， 可 以 拆 成 两 
部 分 ， 一 部 分 是 4 的 整数 倍 ; 另 一 部 分 是 余下 的 内 容 。 

软件 流水 是 编译 器 优化 循环 代码 的 一 种 指令 调度 策略 ， 用 于 在 循 
环 的 多 次 迭代 中 提高 措 令 的 并 行 性 。 硬 件 流水 前 面 已 经 介绍 过 ， 软 件 
流水 顾名思义 ， 就 是 对 软件 (这 里 特 指 循 环 ) 进行 类 似 的 流水 线 调 
度 。 软 件 流 水 也 称 为 循环 级 并 行 。 

每 次 循环 称 为 一 次 迭代 (Iteration) ， 每 次 迭代 执行 3 条 指令 : 
K1，K2，K3 (如 取 数 、 计 算 、 存 数 ) ， 传 统 的 程序 执行 过 程 如 下 : 
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传统 循环 的 执行 过 程 
而 采用 软件 流水 技术 ， 程 序 的 执行 过 程 如 下 : 
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软件 流水 示意 


进 流水 的 阶段 称 为 Loop Prolog ， 全 速 并 行 的 阶段 称 为 Loop 
Kerel， 出 流水 线 的 阶段 称 为 Loop Epilog。 
下 面 我 们 分 析 FIR 滤 波 器 的 8 条 指令 并 行 是 怎么 实现 的 。 
下 面 的 代码 中 ， 箭 头 后 面 为 每 条 指令 的 描述 


.2 B8,86,86 ”一 一 A 部 分 DOTP2 的 结果 和 总 结果 的 累加 
大 A6,A7,A7 ”一 >B 部 分 DOTP2 的 结果 和 总 结果 的 累加 
.M2X B4,A4,B8 一 一 一 2 个 样 点 的 乘 累加 


.MIX B5,A5,A6 一 一 2 个 样 点 的 乘 累 加 
LOOP 一 一 循环 代码 中 的 跳 转 
B0, -1,B0 ”一 一 2 循环 计数 器 
*BB7++，,B5:B4 一 一 一 读 入 c [二 ] 数 组 中 的 4 个 样 点 
四 A3++ ,A5:A4 一 一 s= 读 入 x{[i] 数 组 中 的 4 个 样 点 


下 图 更 清晰 的 描述 了 各 条 指令 的 功能 及 它们 是 怎么 组 合 来 完成 一 
个 FIR 运 算 的 : 
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FIR 滤 波 器 汇编 实例 

TI DSP 汇 编 指令 的 目的 寄存 器 是 最 后 一 个 寄存 器 ，LDDW 指 令 最 
后 一 个 寄存 器 是 B5:B4， 表 示 一 次 从 Cache 中 取 64 bit 的 数据 ， 结 果 存 储 
在 两 个 寄存 器 中 ，64 bit 的 数据 相当 于 4 个 样 点 (每 个 样 点 16 bit) 。 

DOTP2 指 令 完 成 乘 累加 的 功能 ， 它 可 以 将 32 位 的 寄存 器 看 成 两 个 
16 位 的 寄存 器 ， 分 别 进 行 乘法 ， 然 后 再 累加 ， 结 果 放 在 一 个 32 位 寄存 
器 中 。 

ADD 指 令 将 以 前 的 结果 和 DOTP2 输 出 的 结果 进行 累加 ， 等 循环 执 
行 完 后 ， 将 Sum A 和 Sum B 相 加 ， 就 是 最 终 的 结果 。 

SUB 指 令 完 成 循环 计数 器 的 递减 操作 ，B 指 令 完 成 循环 的 跳 转 功 
能 。 

这 样 ，8 条 指令 就 正常 的 运转 起 来 ， 并 行 实现 一 个 FIR 的 运算 。 

VLIW 成 功 的 关键 就 在 于 编译 器 是 否 能 将 高 级 语言 翻译 成 并 行 性 
足够 好 的 指令 序列 。 循 环 代码 通常 占据 了 绝 大 部 分 的 程序 执行 时 间 ， 
对 循环 代码 的 优化 成 为 表现 VLIW 性 能 的 最 关键 因素 。 


4.5.4 ”Superscalar 和 和 VLIW 总结 


VLIW 和 Superscalar 两 种 处 理 器 结构 都 是 为 了 提高 指令 的 并 行 性 而 
设计 的 。 所 不 同 的 是 : 并 行 的 指定 时 间 不 一 样 ，VLIW 在 编译 阶段 指 
定 并 行 ， 而 Superscalar 在 执行 阶段 指定 并 行 。x86 处 理 器 为 了 保证 程序 
的 兼容 性 ， 不 得 不 采用 Superscalar， 而 后 来 没有 历史 包容 的 RISC 处 理 
器 则 可 以 直接 采用 VLIW 结 构 。 

由 于 VLIW 内 核 简单 ， 因 此 新 出 的 处 理 器 ， 都 使 用 了 VLIW 内 核 ， 
如 Tensilica 和 Tilera。 Superscalar 通 常会 配合 乱 序 执行 来 提高 并 行 性 ， 
不 过 由 于 乱 序 执行 资源 消耗 太 大 ， 也 有 的 处 理 器 使 用 顺序 (In-order) 
的 Superscalar 结 构 ， 如 Intel 在 低 功 耗 领 域 和 ARM 竞 争 的 Atom 处 理 器 。 

单 从 并 行 性 来 说 ，VLIW 更 胜 一 筹 ， 因 为 它 使 用 了 更 上 层 的 信 
息 ， 可 以 从 源头 实现 并 行 ， 它 更 擅长 于 数据 的 密集 运算 。 不 过 如 果 发 
生 Cache miss、 执 行路 径 跳 转 时 ，VLIW 就 无 能 为 力 了 ， 而 采用 乱 序 十 
Superscalar 的 处 理 器 则 能 将 后 面 的 指令 提前 来 执行 ， 因 此 乱 序 十 
Superscalar 更 擅长 于 复杂 的 控制 类 应 用 程序 。 

问 :“ 如 果 路 上 有 一 张 100 元 的 ， 有 一 张 50 元 的 ， 你 捡 哪个 ? ” 

答 :“ 当 然 是 两 张 都 捡 了 。” 

Intel 和 HP 也 是 这 么 想 的 。 

2001 年 ，Intel 和 HP 联合 推出 了 64 位 的 Itanium 处 理 器 ， 定 位 于 服务 
器 市 场 。Itanium 结 合 VLIW 和 Superscalar 的 优势 ， 提 出 了 新 的 架构 
EPIC (Explicitly Parallel Instruction Computing) 。 但 是 遗憾 的 是 ， 
Itanium 由 于 不 能 和 原 有 的 x86 代 码 兼 容 ， 因 此 市 场 是 叫好 不 叫座 ， 很 
多 软件 公司 〈 如 微软 、Oracle 等 ) 纷纷 表示 不 再 支持 Itanium。 


4.6 ”数据 并 行 (Data Level Parallelism ) 


4.6.1 何 为 SIMD、MMX、SSE 


多 媒体 应 用 是 电脑 上 最 基本 的 应 用 ， 我 们 可 能 每 天 都 要 听 音 乐 、 
看 视频 、 玩 游戏 。 现 在 的 手机 ， 如 果 不 能 看 视频 ， 除 了 跳楼 价 ， 几 乎 


融 不 会 有 人 买 了 。 
语音 、 图 像 信号 被 采样 后 ， 在 计算 机 中 存储 为 如 下 的 形式 : 


100 101 99 100 

I01 101 98 100 

98 102 99 101] 

哆 100 100 97 102 
多 媒体 信号 的 存储 格式 


语音 信号 经 过 8K Hz 采样 后 ，1 秒 钟 包含 8000 个 样 点 ， 图 像 信号 
于 在 水 平和 垂直 方向 上 分 别 采 样 ， 样 点 (专业 术语 称 为 像素 ) 更 多 。 

多 媒体 程序 通常 有 一 个 特点 : 同一 操作 会 重复 处 理 多 个 数据 ， 一 
条 语句 处 理 多 个 数据 的 SIMD (Single Instruction Multiple Data) 指令 
是 应 运 而 生 。 

高 性 能 处 理 器 基本 上 都 包含 SIMD 指 令 。Intel 从 1996 年 开始 增加 
MMX (MultiMedia eXtensions) 指令 集 (也 即 SIMD 指 令 ) ， 后 来 逐步 
增加 了 SSE (Streaming SIMD Extensions) 、SSE2、SSE3、SSSE3、 
SSE4.1、SSE4.2、AX (Advanced Vector Extensions) 指令 集 。AMD 增 
加 了 3DNow! 、SSE5 指 令 集 。 在 x86 处 理 器 上 ， 可 以 通过 CPUID 指 令 
来 查看 自己 的 处 理 器 支持 的 SIMD 指 令 集 。 

MMX 指令 和 FPU ( 浮 点 处 理 单元 ) 指令 共用 64 bit 的 寄存 器 ， 一 
次 可 处 理 64 bit 的 数据 。SSE 系 列 措 令 集 使 用 单独 的 128 bit 寄 存 器 

(XMM 寄 存 器 ) ， 一 次 处 理 128 bit 的 数据 。128 bit 寄 存 器 的 数据 类 型 
可 以 是 两 个 64 bit 数 据 ， 也 可 以 是 4 个 32 bit 的 数据 ， 还 可 以 是 8 个 16 bit 
的 数据 ， 或 者 是 16 个 8bit 的 数据 ， 不 同 的 数据 类 型 对 应 着 不 同 的 指 
令 。AVX 指 令 支 持 256 bit 数 据 的 处 理 。 


128 bit 
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XMM 寄 存 器 的 数据 类 型 


由 于 语音 数据 通常 每 个 样 点 16bit， 因 此 128 bit 的 SSE 指 令 可 以 一 
次 操作 8 个 样 点 。 图 像 数 据 一 般 每 个 像素 8 bit， 因 此 128 bit 的 SSE 指 令 
可 以 一 次 操作 16 个 像素 。 


4.6.2 ” 几 种 不 同形 式 的 SSE 指 令 


1. 垂直 计算 形式 
最 常见 的 SSE 指 令 是 垂直 计算 形式 ， 如 下 图 所 示 : 


垂直 计算 形式 的 SSE 指 令 


左边 是 普通 指令 的 计算 形式 ， 右 面 是 垂直 计算 形式 的 SSE 指 令 。 

在 垂直 计算 形式 的 SSE 指 令 中 ，X 和 YY 寄存器 被 看 成 是 一 个 向 量 ， 
它 包含 多 个 标量 数据 ， 每 个 标量 数据 分 别 运 算 ， 这 也 是 SIMD 指 令 最 常 
用 的 计算 形式 。 


2. 水 平 计 算 形 式 


除了 常见 的 垂直 计算 形式 之 外 ，SSE 指 令 集 还 支持 很 多 个 性 化 的 
指令 形式 ， 以 满足 不 同 的 应 用 需要 。 例 如 ， 下 面 的 水 平 计算 模式 : 


(有 


水 平 计算 形式 
在 水 平 计算 形式 中 ， 两 个 操作 数 均 来 自 于 同一 个 产 ， 而 不 像 垂 直 
计算 形式 ， 两 个 操作 数 来 自 于 不 同 的 源 。 


3. 标量 计算 形式 


op op 


op of 
半 RS 二 宁 | > 
dest Y3 再 A | | 


标量 计算 形式 

SSE 指 令 还 支持 标量 的 运算 方式 ， 如 上 图 所 示 : 只 有 x0 和 y0 进 行 
操作 ， 其 他 的 元 素 保持 不 变 。 

DSP 专 业 做 信号 处 理 ， 自 然 也 有 SIMD ， 不 过 DSP 并 没有 单独 的 
SIMD 寄 存 器 ， 而 是 使 用 通用 寄存 器 ， 前 面 VLIW 章 节 中 介绍 的 DOTP2 
就 是 一 个 SIMD 指 令 。 

值得 注意 的 是 : 两 个 8 bit 数 据 相 加 会 有 一 个 进位 ， 有 些 指令 带 饱 
和 操作 (如 无 符号 8 bit 数 据 相 加 超过 255 的 就 用 255 人 代替) ， 有 些 指令 
要 求 用 户 自己 保证 不 溢出 。 因 此 使 用 SIMD 指 令 需 要 注意 指令 的 应 用 场 
与 oO 

SIMD 是 如 此 的 简洁 高 效 ， 以 至 于 不 仅仅 是 高 性 能 的 x86 和 DSP， 
就 如 以 低 功 耗 著称 的 ARM 处 理 器 等 ， 也 增加 了 对 SIMD 的 支持 。 
PowerPC 的 AltiVec 实 际 上 也 是 SIMD 指 令 集 。 


4.7 ”线程 并 行 (Thread Level Parallelism) 


4.7.1 ”多 线程 一 一 时 分 复 用 


很 多 程序 要 能 同时 完成 很 多 任务 (至 少 是 看 起 来 同时 完成 ) ， 
如 : 网 络 播放 器 要 能 下 载 节目 ， 要 能 播放 节目 ， 要 能 实时 的 让 用 户 用 
鼠标 控制 暂停 、 播 放 。 为 了 让 程序 能 同时 做 很 多 事情 ， 现 代 程序 设计 
都 将 程序 分 成 了 多 个 线程 (Thread) ， 每 个 线程 完成 各 自 的 功能 ， 组 


合 起 来 实现 一 个 应 用 。 网 络 播放 器 就 可 以 分 为 3 个 线程 : 一 个 下 载 线 
程 ， 一 个 解码 播放 线程 ， 一 个 用 户 界面 线程 。 

操作 系统 采用 时 间 片 轮转 的 方式 ， 隔 一 定时 间 就 切换 到 新 的 线程 
执行 ， 这 样 就 不 会 让 用 户 有 长 久 的 等 待 。 由 于 处 理 器 执行 的 速度 够 
快 ， 并且 线程 间 的 切换 时 间 很 短 ， 因 此 人 们 在 操作 计算 机 时 ， 常 常 感 
觉 不 到 线程 的 切换 和 计算 机 的 等 待 。 


程序 


Thread #1 Thread #2 


Lime 


分 时 调度 线程 


当 从 线程 A 切换 到 线程 B 时 ， 线 程 A 对 应 的 处 理 器 状态 被 保存 
(ISA 寄 存 器 等 ) ， 然 后 加 载 线程 B 的 处 理 器 状态 ， 执 行 线 程 B。 这 个 
过 程 称 为 上 下 文 切 换 (context switching) 。 

由 于 上 下 文 切 换 是 使 用 多 线程 时 引入 的 额外 开销 ， 会 浪费 一 定 的 
CPU 时 间 ， 因 此 线程 划分 要 格外 注意 。 不 过 ， 在 很 多 场合 下 ， 多 线程 
却 能 提高 执行 效率 。 


多 线程 示例 


时 间 轴 


多 线程 示例 

以 上 面 这 个 图 为 例 ， 程 序 有 两 大 块 ， 块 1 和 块 2， 使 用 单线 程 编 程 

时 ， 程 序 顺序 执行 ， 遇 到 数据 没有 准备 好 时 ， 只 能 等 待 。 如 果 将 程序 

块 1 放 在 线程 1 中 ， 将 程序 块 2 放 到 线程 2 中 ， 线 程 1 发 生 数据 等 待 而 暂停 
时 ， 处 理 器 可 以 转移 到 线程 2 处 执行 ， 提 高 了 整体 的 执行 效率 。 


4.7.2 ”硬件 多 线程 一 一 让 我 来 帮 你 一 把 


前 面 说 的 上 下 文 切 换 是 由 软件 (OS) 来 实现 的 ， 实 际 上 处 理 器 能 
更 快 地 完成 这 个 工作 。 在 处 理 器 中 多 开辟 几 份 线程 状态 ， 当 线程 发 生 
切换 时 ， 处 理 器 切换 到 对 应 的 线程 状态 执行 ， 在 瞬间 即 可 完成 ， 这 种 
方式 叫做 硬件 多 线程 (Hardware Multithreading) 。 

硬件 多 线程 又 分 成 两 类 : 粗 粒 度 (Coarse-grained) 和 细 粒 度 
(Fine-grained) 的 硬件 多 线程 。 


1. 粗 粒 度 


当 处 理 器 发 现 一 个 线程 被 长 时 间 中 断 时 ， 如 Cache miss， 这 时 处 
理 器 就 切换 到 其 他 线程 去 执行 。 
下 面 是 一 个 粗 粒度 硬件 多 线程 的 调度 示例 : 


时 间 处 理 器 工作 


Cycle i 发 射线 程 A 的 指令 j 

Cycle i+] 发 射线 程 A 的 指令 j+1， 发 现 cache miss 了 
Cycle i+2 线程 调度 ， 从 A 切换 到 B 

Cycle i+3 发 射线 程 B 的 指令 

Cycle i+4 发 射线 程 B 的 指令 k+1 


2。 细 粒度 
细 粒 度 的 硬件 多 线程 是 处 理 器 每 个 cycle 轮 流 发 射 (issue) 不 同 线 
程 的 指令 。 


下 面 是 一 个 细 粒 度 硬 件 多 绪 程 的 调度 示例 : 


时 间 处 理 器 工作 

Cyclei 发 射线 程 A 的 指令 j 
Cycle 计 ] 发 射线 程 B 的 指令 k 
Cycle i+2 发 射线 程 A 的 指令 j+1 
Cyclei+3 发 射线 程 B 的 指令 k+1 


细 粒 度 的 硬件 多 线程 的 优势 在 于 : 多 线程 之 间 的 指令 是 不 相关 
的 ， 可 以 乱 序 并 行 执 行 ， 寄 存 器 重 命名 不 仅 处 理 了 线程 内 指令 的 相 
天 ， 也 处 理 了 线程 间 指 令 的 相关 。 


3. 同时 多 线程 


不 管 是 粗 粒度 还 是 细 粒 度 的 硬件 多 线程 ， 多 个 线程 都 是 分 时 发 射 
的 。 在 Superscalar 处 理 器 中 ， 处 理 器 能 一 次 发 射 多 条 指令 ， 如 果 这 多 
条 指令 来 自 于 不 同 的 线程 ， 即 多 个 线程 的 指令 同时 被 发 射 ， 那 么 这 种 
工作 方式 就 叫做 同时 多 线程 (SMT，Simultaneous Multi Threading) 。 

下 面 是 一 个 同时 多 线程 的 调度 示例 : 


_ 了 时 间 处 理 器 工作 
Cyclei 发 射线 程 A 的 指令 j、 计 1， 线 程 B 的 指令 kKk、k+1 
Cycle 计 1 发 射线 程 A 的 指令 j+2， 线 程 B 的 指令 kt+2， 线 程 C 的 指令 m 


Cycle i+2 发 射线 程 A 的 指令 i+3， 线 程 C 的 指令 m+1、m+2 


Intel 的 SMT 技 术 ， 称 之 为 超 线程 (Hyper Thread) 。 
4.7.3 多核 一 一 从 “ 必 ” 到 “ 苓 ”的 跳 变 


刘 、 关 、 张 三 兄弟 联手 ， 也 只 是 稍微 强 过 号 布 一 点 点 ， 而 即使 是 
强 如 吕布 ， 最 终 还 是 敌 不 过 曹操 的 千 盏 万 马 ， 可 见 一 个 人 的 力量 总 是 
有 限 的 ， 人 多 还 是 力量 大 。 处 理 器 也 是 一 样 ， 单 个 核 的 指令 并 行 和 数 
据 并 行 已 经 很 难 再 上 一 个 台阶 了 ， 而 提高 频率 又 会 导致 处 理 器 的 功 耗 
非 线 性 的 增加 ， 剩 下 的 唯一 一 条 途径 ， 就 是 增加 核 的 数目 了 。 核 越 
多 ， 就 能 有 更 多 的 线程 并 行 执 行 ， 也 能 提高 程序 的 效率 。 

这 几 年 来 ， 各 大 处 理 器 公司 的 指令 并 行 、 数 据 并 行 、 频 率 提高 
进展 已 经 放 缓 了 ， 取 而 代 之 的 是 核 数 的 大 幅 提 升 ， 家 用 PC4 核 处 理 器 
已 经 很 普遍 了 ，iPad2 也 使 用 了 两 个 ARMCortex-A9 内 核 ， 服 务 器 CPU 
的 核 数 增长 更 是 迅猛 ， 已 推出 了 100 个 核 的 处 理 器 芯片 。 在 IDF 2005 

(Intel Developer Forum 2005) 上 ，Intel 首 席 执 行 官 Craig Barrett 就 取消 
4GHz 心 片 计 划一 事 ， 半 开玩笑 当众 单 膝下 跪 致歉 。 
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Craig Barrett 半 开玩笑 当众 单 膝下 跪 致歉 
多 核 处 理 器 ， 顾 名 思 义 就 是 核 多 了 ， 如 下 图 所 示 
多 个 核 会 共用 处 理 器 的 外 设 与 接口 ， 如 内 存 控制 器 、PCI-E 接 口 
等 ， 通 常 也 会 共享 一 段 Cache。 


存储 器 


外 设 与 接口 


多 核 处 理 器 结构 
人 一 多 时 ， 就 会 涉及 管理 、 沟 通 问题 ， 人 越 多 ， 管 理 、 沟 通 效率 
就 越 低 效 。 处 理 器 也 是 这 样 ， 怎 样 管 理 好 这 么 多 核 也 是 相当 富有 挑战 
的 事情 。 
下 图 为 常见 的 几 种 多 核 组 织 结构 : 


Bus Multicore 


BUS 
Bus 结 构 


Ring Multicore 


[2 
Ges) Ee = J 
四 是 四 


Ring 结 构 


Switch Multicore 


Switch 结 构 
Mesh Multicore 


Mesh 结 构 


p 表 示 内 核 ，c 表 示 内 核 拥 有 的 Cache，s 表 示 Switch， 用 于 核 间 的 
通信 。 线 条 表示 通信 路 径 。 

Bus 结 构 是 比较 简单 的 核 间 通信 方式 ， 内 核 挂 在 通信 和 总 线 上 ， 实 
现 简 单 ， 缺 点 是 每 两 个 内 核 通 信 都 要 占用 总 线 ， 导 致 其 他 的 核 不 能 通 
言 ， 通 信 效 率 较 低 。 

Switch 结构 是 通信 效率 最 高 的 结构 ， 每 个 内 核 两 两 相连 ， 在 1 和 -2 
通信 的 同时 ，3 和 4 也 可 以 同时 通信 。 如 果 核 少 还 好 ， 如 果 核 太 多 ， 这 
种 连接 方式 需要 耗费 大 量 的 互联 资源 ， 通 常 4 个 核 左 右 的 处 理 器 ， 采 用 
这 种 方式 。 

Ring 结 构 是 介 于 Bus 和 Switch 之 间 的 一 种 结构 ，1 和 3 通信 需要 经 过 
2， 越 近 的 两 个 核 通信 效率 越 高 ， 通 信 连 线 并 不 复杂 ， 实 现成 本 也 低 。 


通常 8 个 核 左右 采用 这 种 方式 ，Itel 的 很 多 处 理 器 采用 这 种 结构 。 

Mesh 结 构 适用 于 核 数 非常 多 的 情况 ， 类 似 于 二 维 的 Ring 结 构 。 当 
核 数 太 多 时 ， 使 用 Switch 结构 会 导致 连 线 异常 复杂 ，N 个 内 核 两 两 通 
信 ， 需 要 NxN 量 级 数 的 连 线 ， 而 Mesh 是 很 好 的 选择 。Mesh 结 构 简 单 ， 
易于 扩展 ， 通 信 效 率 也 高 。 众 核 处 理 器 (Many-Core，Core 很 多 时 ， 
多 核 就 变 成 了 众 核 ) 首选 这 种 方式 ， 如 Tilera 的 64 核 /100 核 处 理 器 。 

因为 核 间 通 信 会 影响 内 核 的 运算 效率 ，1 个 核 可 以 做 5 件 事 情 ， 并 
不 代表 4 个 核 可 以 做 20 件 事情 ， 核 越 多 时 ， 数 据 交 换 延 时 越 长 。 


4.7.4 各 种 硬件 多 线程 对 比 
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Single (cycle-by-cycle (Block Interleaving) (CMP or (SMT) 


Threaded Interleaving) MultiCore) 
各 种 硬件 多 线程 使 用 效率 对 比 
在 上 面 这 张 图 中 ， 不 同 线程 的 指令 用 不 同 的 颜色 表示 ， 每 行 表 示 
一 个 Cycle， 每 列表 不 一 个 功能 单元 。 图 中 的 处 理 器 有 4 个 功能 单元 ， 
空白 表示 功能 单元 空 闪 。 
第 1 列 图 为 没有 硬件 多 线程 技术 的 超标 量 处 理 器 ， 一 次 只 能 执行 1 
个 线程 ， 每 个 时 刻 能 够 并 行 执行 的 指令 数 依赖 于 程序 的 特性 ， 有 时 功 
能 单元 会 全 部 处 于 等 待 状态 。 


第 2 列 为 细 粒 度 的 硬件 多 线程 ， 每 个 Cycle 切换 一 次 线程 ， 这 样 的 
目 令 发 射 策略 就 可 以 防止 出 现 第 1 列 中 全 部 功能 单元 等 待 的 情况 。 

第 3 列 为 粗 粒度 的 硬件 多 线程 ， 每 个 线程 执行 一 段 时 间 ， 然 后 切换 
到 另 一 个 线程 。 

第 4 列 为 多 核 的 结构 ， 每 个 核 有 两 个 功能 单元 ， 没 有 硬件 多 线程 技 
术 ， 两 个 核 分 别 执行 两 个 线程 。 

第 5 列 为 同时 多 线程 的 结构 ， 每 个 时 刻 ， 有 的 功能 单元 在 执行 线程 
1 的 指令 ， 有 的 功能 单元 在 执行 线程 2 的 指令 ， 功 能 单元 的 利用 率 最 
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4.8 ”并行 总 结 


并 行 是 提高 内 核 性 能 最 主要 的 方法 ， 并 行 可 以 分 为 时 间 并 行 和 空 
间 并 行 ， 空 间 并 行 又 可 分 为 指令 并 行 、 数 据 并 行 和 线程 并 行 。 


J 


时 间 并 行 一 一 流水 线 
VLIW 
并 行 We 
于 aa 
超标 量 
空间 并 行 数据 并 行 一 一 SIMD 


SMI 
| 多 核 
多 处 理 器 


内 核 的 并 行 性 


无 并 行 


时 间 并 行 (流水线 ) 


空间 并 行 


时 间 并 行 加 空间 并 行 
现代 处 理 器 ， 都 是 这 几 种 并 行 结构 的 混合 体 。 在 空间 并 行 的 3 种 类 
型 中 ， 指 令 并 行 和 数据 并 行 是 底层 的 并 行 ， 更 多 的 由 处 理 器 或 编译 器 
实现 。 线 程 并 行 是 高 层 的 并 行 ， 硬 件 只 提供 支持 ， 并 行 由 程序 员 实 
现 。 起 标量 并 不 需要 程序 员 干 预 ，VLIW 和 数据 并 行 通常 需要 程序 员 


协助 编译 器 优化 以 获得 更 好 的 并 行 性 。 线 程 并 行 几 乎 完全 靠 程序 员 根 
据 应 用 来 决定 并 行 性 ， 某 些 并 行 编程 平台 能 帮助 程序 员 更 方便 的 编写 
多 线程 程序 。 指 令 并 行 和 数据 并 行 受 处 理 器 结构 限制 ， 已 经 基本 成 
熟 ， 线 程 并 行 由 于 可 利用 的 信息 更 多 ， 并 行 空 间 更 大 ， 是 未 来 处 理 器 
设计 和 程序 设计 的 重点 。 

指令 并 行 、 数 据 并 行 、 线 程 并 行 这 3 种 并 行 并 不 是 相互 独立 的 ， 而 
是 相互 关联 的 : 


DLP 


3 种 并 行 之 间 的 关系 
1. 指令 并 行 与 数据 并 行 的 关系 


数据 并 行 的 工作 也 可 以 通过 指令 并 行 来 实现 ， 不 过 数据 并 行 只 需 
要 一 条 指令 ， 指 令 并 行 需要 多 条 指令 。 指 令 并 行 可 以 处 理 任意 的 数 
据 ， 而 数据 并 行 只 能 处 理 连续 的 数据 。 


指令 并 行 效 据 并 行 


指令 并 行 和 数据 并 行 的 区 别 
2. 指令 并 行 与 线程 并 行 的 关系 


线程 是 由 多 条 指令 组 成 ， 指 令 并 行 和 线程 并 行 只 是 观察 的 粒度 不 
一 样 ， 小 的 叫 指令 ， 大 的 叫 线程 。 例 如 : 某 函 数 需要 10 条 指令 实现 ， 
如 果 这 个 阔 数 调用 的 次 数 非常 之 多 ， 在 新 的 处 理 器 设计 时 ， 可 以 将 这 
个 函数 设计 成 一 条 指令 ， 在 原 有 处 理 器 上 ， 这 个 函数 是 一 个 线程 ， 而 
在 新 的 处 理 器 上 ， 这 个 永 数 就 是 一 条 指令 。 

SMT 既 可 以 理解 为 线程 并 行 技术 ， 也 可 以 理解 为 指令 并 行 扩 术 ， 
从 宏观 上 看 ， 它 是 多 个 线程 并 行 ， 从 微观 上 看 ， 它 是 多 条 指令 并 行 ， 
只 是 这 些 指令 属于 不 同 的 线程 。 


3. 数据 并 行 与 线程 并 行 的 关系 


当 数 据 之 间 疫 有 相关 性 ， 可 以 将 不 同 的 数据 放 到 不 同 的 线程 中 执 
行 ， 这 种 情况 下 ， 线 程 并 行 就 是 更 高 层 的 数据 并 行 。 


4.9” 微 架构 总 结 
4.9.1 ”处 理 器 性 能 公式 


处 理 器 是 用 来 执行 程序 的 ， 处 理 器 的 性 能 也 融 体 现在 执行 程序 的 
时 间 上 。 如 果 执行 程序 的 时 间 越 短 ， 则 说 明 处 理 器 的 性 能 越 强 。 我 们 
将 处 理 器 执行 程序 的 时 间 进 行 分 解 ， 就 会 找到 影响 处 理 器 性 能 的 很 多 
因素 。 


seconds Instructions cycles seconds 
program program Instruction cycle 
程序 的 执行 时 间 程序 的 指令 数 程序 执行 的 周期 数 ”每 周期 的 时 间 
处 理 器 性 能 公式 


这 个 公式 从 左 到 右 有 4 项 ， 第 1 项 用 时 间 除 以 程序 ， 表 示 执 行程 序 
所 需要 的 时 间 ， 第 2 项 用 指令 数 除 以 程序 表示 程序 包含 的 指令 的 数目 ; 
第 3 项 用 周期 数 除 以 指令 表示 每 条 指令 执行 所 需要 的 周期 数 ， 第 4 项 用 
时 间 除 以 周期 表示 每 个 周期 对 应 的 时 间 。 

该 公式 也 即 : 

程序 的 执行 时 间 三 程序 包含 的 指令 数 x 平均 每 条 指令 的 执行 周期 
数 x 每 周期 对 应 的 时 间 

从 处 理 器 性 能 公式 可 以 看 出 ， 为 了 提高 处 理 器 的 性 能 ， 束 需要 减 
少 程序 的 执行 时 间 ， 可 以 通过 如 下 途径 去 实现 : 

(1) 减少 程序 的 指令 数 。 

(2) 减少 指令 的 执行 周期 数 。 

(3) 减少 时 钟 周期 时 间 。 


4.9.2 ”通过 微 架 构 的 改进 提高 程序 执行 效率 
1. 减少 程序 的 指令 数 


指令 用 来 处 理 数据 ， 如 果 一 次 能 处 理 更 多 的 数据 ， 那 么 指令 束 可 
以 减少 ， 因 此 SIMD 技 术 能 减少 程序 的 指令 数 。 


处 理 器 将 多 条 操作 合并 成 一 条 指令 ， 也 能 减少 程序 的 指令 数 ， 一 
个 例子 就 是 DSP 的 乘 昧 加 指令 ， 将 一 般 处 理 器 上 的 乘法 和 加 法 指令 合 
并 成 一 条 指令 ， 执 行 时 间 和 乘法 指令 相同 。 


2. 减少 指令 的 执行 周期 数 


指令 的 执行 周期 数 有 一 个 洋 名 ， 册 做 CPI (Cycles Per 
Instruction) 。 此 CPI 不 等 于 彼 CPI (Consumer Price Index， 消 费 者 物价 
指数 ) ， 不 过 大 家 对 想 要 降低 CPI 的 愿望 都 是 这 么 的 强烈 。 

当 处 理 器 的 流水 线 结构 定义 好 后 ， 指 令 的 执行 周期 数 就 固定 好 
了 。 虽 然 不 能 直接 减少 指令 的 执行 周期 数 ， 不 过 我 们 可 以 逆向 思维 ， 
增加 每 个 周期 执行 的 指令 数 。 以 前 只 有 一 个 顺 渔 ， 那 就 多 培养 几 个 顺 
溜 ， 以 前 只 有 一 个 执行 单元 ， 那 就 在 处 理 右 上 多 摆 几 个 执行 单元 。 这 
就 是 指令 级 并 行 ， 也 是 处 理 器 在 很 长 一 段 时 间 内 的 主流 设计 思想 。 


3。 减少 时 钟 周期 时 间 


我 们 很 小 的 时 候 就 学 过 周期 和 频率 的 关系 : T= 1/f。 

数字 电路 以 周期 (Cycle) 为 基本 的 执行 单位 ， 每 个 Cycle 时 间 越 
短 ， 则 电路 运算 速度 越 快 ， 也 即 频率 越 高 。Imtel、AMD 等 公司 在 多 核 
风靡 之 前 都 极力 地 提高 处 理 器 工作 频率 ， 很 多 玩家 更 是 热衷 于 超频 。 

集成 电路 制程 工艺 的 进步 和 流水 线 优化 是 提高 频率 的 主要 手段 ， 
先进 的 制程 工艺 减少 了 信号 的 传输 延迟 ， 使 得 频率 得 以 提升 。 流 水 线 
级 数 越 深 ， 每 个 周期 完成 的 任务 越 少 ， 信 和 号 的 传输 延迟 越 小 ， 频 率 也 
得 以 提升 。 


4. 增加 同时 执行 的 线程 数 


将 程序 分 解 为 多 个 线程 ， 利 用 处 理 器 的 多 核 ， 或 者 SMT 来 并 行 执 
行 更 多 的 线程 ， 也 能 缩短 程序 的 执行 时 间 。 


4.9.3 ”商用 处 理 器 微 架构 的 选择 


处 理 器 在 设计 时 ， 都 会 根据 自己 的 应 用 对 技术 有 所 取舍 。 是 选择 
In-order 还 是 Out-of-order? 选择 单 发 射 还 是 多 发 射 ? 是 否 选 择 SIMD? 
选择 多 少数 据 长 度 的 SIMD? 是 否 选择 SMT? 处 理 器 内 部 包含 多 少 个 
核 ? 

高 性 能 、 低 功 耗 是 处 理 器 设计 的 基本 要 求 ， 不 过 它们 之 间 常 常 是 
矛盾 的 ，Intel 以 前 的 处 理 器 设计 ， 更 多 的 是 考虑 性 能 ， 现 在 ，Intel 更 
关注 单位 功 耗 下 的 性 能 (Performance Per Watt) 。 选择 Performance Per 
Watt 较 好 的 技术 ， 来 搭建 合适 的 处 理 器 ， 已 经 成 为 现代 处 理 器 设计 的 
主流 思想 。Intel 也 称 ， 现 代 处 理 器 设计 ， 受 面积 的 影响 小 ， 受 功 耗 的 
影响 大 。 

在 诸多 技术 中 ， 多 核 、SMT、VLIW、SIMD 都 是 Performance Per 
Watt 较 好 的 技术 ， 乱 序 执行 内 核 的 Performance Per Watt 并 不 高 ， 主 要 
原因 是 乱 序 执行 内 核 的 功 耗 太 大 。SMT 的 引入 ， 使 得 功能 单元 的 并 行 
性 得 以 加 强 ， 这 样 乱 序 执 行内 核 的 意义 就 不 是 这 么 明显 了 ， 因 此 Intel 
在 为 低 功 耗 应 用 设计 的 Atom 处 理 器 中 ， 舍 弃 了 使 用 多 年 的 乱 序 执行 内 
核 ， 而 采用 了 原始 的 、 简 单 的 顺序 执行 内 核 。DSP 主 要 用 在 低 功 耗 场 
合 ， 但 同时 要 高 性 能 ， 采 用 多 核 十 VLIW 十 SIMD 十 简单 内 核 的 结构 。 


处 理 器 的 <* 肚 量 ” 


众 里 寻 她 千百度 ? 莫 然 回首 ， 那 人 却 在 Cache 处 。 


第 5 章 Cache 


导读 一 CPU 与 内 存 条 


长 久 以 来 ， 内 存 条 一 直 陪 伴 在 CPU 身 旁 ， 不 分 寒冬 和 酷暑 ， 不 离 不 弃 。CPU 也 逐渐 对 她 
暗 生 情 悚 ， 一 日 ，CPU 终 于 忍 不 住 对 内 存 条 说 :“ 你 在 我 心 ( 芯 ) 中 ， 留 下 了 印记 ! ” 


你 在 我 心中 留 下 了 印记 / 


CPU 与 内 存 条 


CPU 为 什么 会 这 样 说 呢 ， 这 是 因为 ，CPU 内 部 有 一 段 存 储 空间 ， 内 存在 里 面 留 下 了 一 些 
数据 ， 这 段 空间 就 是 Cacheo。 


探索 既 熟 悉 又 陌生 的 领域 


5.1.1 ”随处 可 见 的 Cache 一 一 技术 来 源 于 生活 


使 用 电脑 的 人 对 Cache 并 不 会 阳 生 ， 只 要 在 Windows 下 搜索 
“Cache”， 就 会 找到 一 大 堆 命 名 包括 *Cache” 的 文件 和 文件 夹 ， 系 统 目 
录 下 有 ， 浏览 器 目 录 下 有 ， QQ 目录 下 有 ， PPStream 目 录 下 有 ， 迅雷 看 


5.1 ”什么 是 Cache 


维基 百科 对 Cache 的 定义 是 : 它 是 一 个 部 件 ， 透 明 地 存储 了 一 些 数 
据 ， 当 下 次 需要 这 些 数 据 时 ， 就 能 更 快 的 访问 到 。 以 迅雷 看 看 为 例 ， 
在 网 络 上 看 完 一 个 节目 后 ， 节 目 就 存储 在 本 地 硬盘 上 ， 当 下 次 再 看 这 


个 节日 时 ， 就 直接 访问 硬盘 上 缓存 的 内 容 ， 而 不 是 从 网 络 上 去 取 ， 这 
样 获取 节目 的 速度 就 加 快 了 。 “透明 ”的 意思 是 ， 用 户 不 需要 关心 这 段 
数据 存在 哪 。 

Cache 的 思想 ， 并 不 是 计算 机 专 有 的 ， 它 来 源 于 生活 。 

我 们 在 大 学 读书 时 ， 书 都 放 在 宿舍 里 ,今天 要 上 《高 数 》 课 ， 就 
把 《高 数 》 的 课本 放 进 书包 ， 明 天 要 上 《C 语 言 》， 就 把 书包 中 的 
《高 数 》 课 本 取出 来 ， 把 《C 语 言 》 课 本 放 进 书包 ， 这 个 包 就 是 一 个 
Cache (缓存 )” 。 垃 圾 笑 、 旅 行 包 等 都 可 以 叫 Cache。 


5.1.2 “处理 器 的 Cache -一 切 都 是 收益 和 成 本 的 权衡 


男生 女生 在 谈 恋 爱 时 ， 都 会 将 最 好 的 一 面 表现 出 来 ， 可 是 一 旦 在 
一 起 时 ， 就 会 发 现 不 是 这 有 问题 ， 就 是 那 有 问题 。 处 理 器 公司 在 宣传 
自己 的 处 理 器 时 ， 也 会 声称 一 秒 钟 能 做 多 少 次 乘法 、 每 个 Cycle 能 并 行 
处 理 多 少 条 指令 等 ， 可 是 当 我 们 实际 使 用 处 理 器 时 ， 就 会 发 现 远 不 是 
那么 回 事 。 前 面 我 们 已 经 知道 ， 实 际 程序 的 并 行 性 有 限 ， 不 能 将 处 理 
器 的 资源 全 部 利用 ， 分 支 也 会 导致 处 理 器 流水 线性 能 恶化 ， 而 最 为 严 
重 的 ， 则 是 内 存 速 度 远 远 跟 不 上 处 理 器 的 速度 。 

处 理 器 的 工作 频率 一 直 都 在 突飞猛进 ， 但 是 内 存 的 工作 频率 却 增 
长 缓慢 ， 完 全 不 在 一 个 档次 。 程 序 和 数据 都 在 内 存 中 ， 程 序 和 数据 返 
述 进 不 了 处 理 器 ， 这 样 即 使 处 理 器 工作 再 快 也 没有 用 。 

其 实 内 存 也 不 是 不 能 提速 ， 只 是 这 一 切 都 是 个 成 本 问题 。 古 人 很 
早 就 告诉 我 们 : 鱼 和 熊 掌 不 能 兼 得 ， 速 度 快 的 存储 器 单位 成 本 下 的 容 
量 小 ， 容 量 大 的 存储 器 速度 慢 。 总 之 ， 越 快 的 存储 器 越 贵 ， 成 本 越 
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下 图 描述 了 各 种 存储 器 速度 和 单位 容量 成 本 的 关系 : 


处 理 器 快 如 奔 马 内 存 慢 如 乌龟 


处 理 器 快 如 奔 马 ， 内 存 慢 如 己 龟 


单位 容量 
的 成 本 


速度 和 单位 容量 成 本 的 关系 


磁带 (Tape) 和 磁盘 (Disk) 单位 容量 的 成 本 较 低 ， 用 于 大 规模 
的 数据 存储 ， 不 过 速度 也 慢 。DRAM 《Dynamic Random Access 


Memory) 速度 一 般 ， 成 本 一 般 ， 用 于 内 存 ，Register 和 SRAM (Static 
Random Access Memory) 速度 快 ， 成 本 高 ， 用 在 处 理 器 内 部 ， 但 是 容 
量 很 少 ， 否 则 处 理 器 功 耗 、 面 积 、 成 本 都 吃不消 。 

为 了 弥补 内 存 的 速度 低下 问题 ， 处 理 器 内 部 会 放置 一 些 SRAM 做 
Cache (缓存 ) ， 来 提高 处 理 器 访问 程序 和 数据 的 速度 。Cache 作 为 连 
接 内 核 和 内 存 的 桥梁 : 


处 理 器 


Cache 


速度 快 


会 量 小 


Cache 一 一 连接 内 核 和 内 存 的 桥梁 

为 什么 处 理 器 内 部 加 了 一 个 速度 快 、 容 量 小 的 Cache 就 能 提速 呢 ? 

我 们 先 来 看 看 生活 中 的 例子 : 

例 1: 当 你 今天 在 图 书馆 看 了 《 射 雕 美 雄 传 》 后 ， 明 天 你 去 图 书馆 
很 可 能 还 会 看 它 ， 直 到 你 看 完 为 止 。 既 然 每 天 都 要 去 看 ， 你 就 会 想 ， 
把 这 本 书 放 在 一 个 靠近 走廊 的 书架 上 (在 图 书馆 允许 的 情况 下 和 不 会 
被 别人 拿 走 的 情况 下 ) ， 这 样 就 可 以 省 掉 每 天 去 里 面 书架 拿 书 的 时 
间 。 

例 2: 你 发 现 自己 深 深 地 被 金庸 的 小 说 迷 住 了 ， 于 是 你 干脆 将 周围 
“ 飞 雪 连天 射 白 鹿 ， 笑 书 神 侠 倚 腰 名 ”这 些 书 全 部 搬 到 靠近 走廊 的 书架 
上 上， 这样 以 后 看 书 时 节省 的 时 间 更 多 。 


Cache 时 间 局 部 性 和 空间 局 部 性 示例 


上 面 这 两 个 例子 分 别 阐明 了 Cache 的 时 间 局 部 性 和 空间 局 部 性 : 

时 间 局 部 性 (Temporal Locality) : 如 果 某 个 数据 被 访问 ， 那 么 在 
不 久 的 将 来 它 很 可 能 再 次 被 访问 (如 例 1) 。 最 典型 的 例子 就 是 循环 ， 
循环 体 代 码 被 处 理 器 重复 的 执行 ， 直 到 循环 结束 。 如 果 将 循环 体 代码 
放 在 Cache 中 ， 只 是 第 一 次 取 这 些 代码 需要 耗费 时 间 ， 以 后 这 些 代码 每 
次 都 能 被 内 核 快 速 的 访问 ， 也 就 节约 了 时 间 。 

空间 局 部 性 (Spatial Locality) : 如 果 某 项 数据 被 访问 ， 那 么 与 它 
相 临 的 数据 很 可 能 很 快 就 被 访问 (如 例 2) 。 最 典型 的 例子 就 是 数组 ， 
数组 中 的 元 素 常 常 按照 顺序 依次 被 程序 访问 。 衡 量 内 存 的 速度 ， 有 两 
个 标准 : 一 是 延 时 ; 二 是 吞吐 量 。 我 们 说 的 内 存 速度 慢 ， 主 要 是 指 延 
时 ， 这 就 好 比 我 们 去 一 个 很 远 的 地 方 ， 很 长 时 间 才 能 到 达 ， 这 就 是 延 
时 大 ， 但 是 这 并 不 妨碍 我 们 一 次 带 很 多 的 东西 ， 这 就 是 吞吐 量 大 。 我 
们 一 次 将 数组 中 的 多 个 元 素 从 内 存 中 复制 到 Cache 中 ， 虽 然 访问 第 一 个 
元 素 需 要 花费 一 些 时 间 ， 但 是 访问 以 后 的 元 素 就 快 了 ， 这 就 是 Cache 在 
空间 局 部 性 上 的 应 用 。 


5.2 ”处 理 器 的 Cache 结 构 一 一 探索 那些 鲜 为 人 知 
的 秘密 


5.2.1 Cache 的 层次 一 一 层次 化 管理 


我 们 通常 会 有 这 样 的 生活 习惯 ， 将 最 常用 的 东西 放 在 桌 上 ， 这 样 
可 以 最 方便 地 拿 到 ， 将 次 常用 的 东西 放 在 抽 居 里 ， 也 能 较 快 地 拿 到 ， 
将 不 常用 的 东西 放 在 箱子 里 ， 去 箱子 里 拿 东西 需要 耗 一 点 时 间 。 

这 种 思想 也 被 用 在 了 Cache 中 ， 现 在 的 处 理 器 ， 都 采用 多 级 的 
Cache 组 织 形 式 ， 来 达到 性 能 和 功 耗 的 最 优 。 

核 处 理 器 大 都 采用 如 下 的 Cache 结 构 : 


ET 


LIP LID 


单 核 处 理 器 的 Cache 结 构 

核 处 理 器 通常 包含 两 级 Cache: L1 Cache 和 L2 Cache，L 表 示 Level 

(级 ) 。 在 L1 中 ， 程序 (Program) 和 数据 (Data) 使 用 各 自 的 缓存 
(LIP 和 LID) ， 而 在 L2 中 ， 程 序 和 数据 共用 一 套 缓存 。 通 常 L1 空 间 为 

几 十 K，L2 空 间 为 几 百 K。 

当 内 核 需 要 访问 程序 或 数据 时 ， 会 先 从 L1 中 去 取 ， 如 果 L1 中 没 
有 ， 则 L1 从 L2 中 将 数据 导入 ， 如 果 L2 中 也 没有 ， 则 L2 从 内 存 中 将 数据 
导入 。 

L1 通 常 和 内 核 同 频率 ， 以 保证 速度 ，L2 通 常会 降 频 使 用 ， 工 作 频 
率 比 内 核 低 ， 这 样 能 降低 功 耗 。 

多 核 处 理 器 大 都 采用 如 下 的 Cache 结 构 : 


多 核 处 理 器 的 Cache 结 构 


在 多 核 处 理 器 中 ， 一 般 每 个 内 核 独 享 自己 的 L1 和 L2， 所 有 的 内 核 
会 共用 一 个 大 容量 的 L3。 


5.2.2 ”Cache 的 工作 方式 一 一 丘比特 之 剑 ， 命 中 与 未 命中 


整个 Cache 空 间 被 分 成 了 N 个 line， 每 个 line (Cache line) 通常 是 32 
byte、64 byte 等 ，Cache line 是 Cache 和 内 存 交 换 数 据 的 最 小 单位 ， 每 个 
Cache line 最 少 会 包含 如 下 3 部 分 : 


Cache line 0 | valid tag block 


Cache line 2 | valid tag block 


Cache line 3 | valid tag block 
Cache 基 本 结构 


block 中 存储 的 是 内 存在 Cache 中 缓存 的 数据 ，tag 中 存储 的 是 该 
Cache line 对 应 的 内 存 块 的 地 址 。valid 表 示 该 Cache line 中 的 数据 是 否 
效 。 

下 面 描 述 了 一 个 基本 的 Cache 工 作 方 式 ， 假 设 处 理 器 只 有 一 级 
Cache， 当 内 核 访问 一 个 数据 时 ， 内 核 首 先 会 在 Cache 中 找 ， 一 开始 自 
然 找 不 到 ， 于 是 就 发 生 了 Cache miss (未 命中 ) ， 这 时 内 存 中 的 数据 
被 导入 到 一 个 Cache line 的 block 中 ， 将 地 址 写 到 相应 的 tag 位 置 处 ， 并 
将 valid 标 志 置 1。 当 下 一 次 内 核 继 续 访 问 这 个 数据 时 ， 处 理 器 根据 地 址 


在 Cache 中 找到 对 应 的 Cache line， 发 现 valid 标 志 为 1 并 且 tag 标 志 也 匹 
配 ， 就 知道 找到 了 数据 ， 直 接 从 Cache 中 取 这 个 数据 ， 这 个 过 程 叫 
Cache hito 


Cache hit Cache miss 


Rr 


光一 


Cache hit (命中 ) 和 Cache miss (未 命中 ) 


当 Cache 命 中 时 ， 内 核 直接 从 Cache 中 取 数 据 ， 时 间 通 常 为 几 个 
cycle， 当 Cache 未 命中 时 ， 数 据 需 要 从 内 存 中 导入 ， 时 间 通 常 是 
十 、 几 百 个 cyde， 极 大 地 拖 垮 了 处 理 器 的 性 能 。 


5.2.3 Cache 的 映射 方式 一 一 多 对 一 的 策略 


由 于 内 存 的 空间 要 远 远 大 于 Cache 的 空间 ， 因 此 内 存 中 的 数据 搬 到 
Cache 中 时 ， 会 存在 一 个 多 对 一 的 映射 。 


1。Full-associative Cache (全 关联 Cache) 


内 存 以 字 节 为 存储 单位 ， 不 过 由 于 内 存 和 Cache 交 换 数据 的 最 小 单 
位 是 一 个 Cache line， 因 此 姑且 将 内 存 也 看 成 按照 line 的 方式 存储 。 

在 Full-associative Cache 中 ， 内 存 中 的 每 个 line 能 够 被 映射 到 Cache 
中 的 任意 一 个 Cache line， 如 下 图 : 

在 32 位 处 理 器 中 ， 地 址 线 为 32bit， 如 果 每 个 line 为 64 byte (6 bit 表 
示 ) ， 那 么 每 个 Cache line 的 tag 需 要 26bit (32 一 6 二 26) 。 

全 关联 Cache 有 个 缺点 ， 那 就 是 当 判 断 一 个 数据 是 不 是 在 Cache 中 
时 ， 它 需要 将 地 址 和 所 有 Cache line 的 tag 进 行 匹 配 ， 成 本 太 高 。 在 实际 


的 处 理 器 中 ， 这 种 方式 很 少见 。 
2。Direct-mapped Cache (直接 映射 Cache) 


与 Full-associative Cache 不 同 的 是 ，Direct-mapped Cache 将 内 存 按 
照 Cache 的 大 小 分 成 了 N 个 Page， 每 个 Page 和 Cache 大 小 相同 。Page 中 
的 line 0 只 能 映射 到 Cache 中 的 line 0， 依 次 类 推 。 

内 存 的 Cache Page 示 例如 下 : 


Cache 内 存 


Line 3 Line 3 


Line 4 


Line 5 


Line 6 


Line 7 


Full-associative Cache 


内 和 存 


ww Line 0 CC, 


Line 0 


Page m 


内 存 的 Cache Page 示 例 

假设 Cache 有 4 个 Cache line， 那 么 Direct-mapped 的 映射 方式 如 下 : 

Direct-mapped 映 射 方式 最 直接 的 一 个 好 处 是 : 随便 给 一 个 地 址 ， 
通过 地 址 就 能 知道 它 位 于 哪个 Cache line 中 ， 这 是 因为 每 一 个 内 存 地 
址 ， 都 只 会 映射 到 唯一 一 个 Cache line 中 。 为 了 Cache line 知 道 自 己 存 储 
的 是 哪个 地 址 处 的 数据 ，tag 需 要 记录 Page 的 索引 。 以 C64 ee 
Cache 为 例 ， 地 址 总 线 为 32bit，LIP 大 小 为 16Kbyte (14bit 表 示 ) ， 
个 Cache line 32 byte (5bit 表 示 ) ， 于 是 tag 需 要 18 bit (32-14) 。 

每 个 32bit 的 地 址 被 分 成 了 3 部 分 : tag 用 于 标识 该 Cache line 属 于 哪 
个 Page，line 指 示 该 数据 应 该 存储 在 哪 一 行 Cache 中 ，Offset 表 示 数 据 应 
该 存储 在 Cache line 中 的 哪个 位 置 。 下 图 为 C64 DSP LIP Cache 中 32 bit 
地 址 的 结构 。 


内 存 


Line 0 


Line 6 


Direct-mapped 了 映射 实例 


18bit 9bit Shit 


C64 DSP LIP Cache 中 32 bit 地 址 的 结构 


使 用 Direct-mapped Cache ，Cache 控 制 器 要 判断 一 个 数据 是 否 在 
Cache 中 时 ， 首 先 根 据 这 个 数据 的 地 址 提取 出 TAG ( 头 18bit) 和 LINE 
(中 间 9bit) ， 根 据 LINE 找 到 对 应 的 Cache line， 如 果 Cache line 中 的 
tag 和 TAG 一 致 ， 并 且 valid 标 志 为 1， 那 么 Cache 就 命中 ， 反 之 ， 则 未 命 
中 。 


3。Set-associative Cache (组 关联 Cache) 


Direct-mapped Cache 要 比 Full-associative Cache 简 单 ， 也 是 处 理 器 
上 比较 常用 的 方式 ， 不 过 Direct-mapped Cache 在 很 多 情况 下 会 有 很 大 
的 缺陷 。 

以 下 面 这 段 程序 为 例 : 


FOr (Em OF 0 二 本 二 ) 
{ J 


| C- += ali] + b{li}]? | 
} a 


假设 Cache 只 有 4 个 Cache line， 数 组 a 存储 在 内 存 的 line 0， 数 组 b 存 
储 在 内 存 的 line 4， 则 Cache 访 问 过 程 如 下 : 
(1) CPU 访 问 a[0]，Cache miss， 数 组 a 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(2) CPU 访问 b[0]，Cache miss， 数 组 b 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(3) CPU 访 问 a[1]，Cache miss， 数 组 a 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(4) CPU 访 问 b[1]，Cache miss， 数 组 b 从 内 存 中 被 搬移 到 Cache 
line 0 中 。 
(5 
由 于 a 和 b 都 映射 到 Cache line 0， 每 次 访问 数据 都 发 生 Cache miss， 
严重 影响 效率 。 


Cache 冲 突 


在 上 面 的 这 个 例子 中 ，Cache line 1、Cache line 2、Cache line 3 都 
浪费 了 ， 而 Cache line 0 却 冲 突 严 重 。 其 实 Full-associative Cache 可 以 解 
决 这 个 问题 ， 因 为 内 存 中 的 每 个 line 都 可 以 映射 到 任意 Cache line 中 ， 
从 这 个 角度 来 看 ，Full-associative Cache 效 率 最 高 ， 但 是 由 于 查找 复 
杂 ， 所 以 很 少 使 用 。 而 商用 的 处 理 器 都 使 用 Setrassociative Cache 来 解 
决 这 个 问题 。 

Set-associative Cache 将 Cache 分 成 了 多 个 way ( 份 ) ， 如 下 图 所 
未: 

Cache way 1 和 Cache way 0 是 完全 相同 的 结构 ， 访 问 a 时 ，a 被 
Cache 到 way 0 的 line 0 中 ， 访 问 b 时 ， 发 现 way 0 的 line 0 已 经 被 使 用 了 ， 
就 将 b 缓 存 到 way 1 的 line 0 中 ， 这 样 就 解决 了 上 面 的 冲突 问题 。 数 组 a 
和 b 的 访问 只 在 第 一 次 访问 a[0] 和 b[0] 时 需要 从 内 存 导 入 ， 其 他 的 时 候 
都 能 直接 从 Cache 中 取 数 。 

Direct-mapped Cache 等 同 于 1-way Set associative Cache。 

在 相同 Cache 容 量 下 ，Cache way 越 多 ， 则 每 个 Cache way 的 容量 就 
越 少 。Cache way 的 增多 会 减少 Cache miss， 但 是 Cache way 容 量 的 减 
小 ， 又 会 增加 Cache miss。 Cache way 越 多 ，Cache 的 硬件 结构 也 越 复 
杂 ， 功 耗 也 越 高 。 不 同 的 处 理 器 都 会 根据 自己 的 应 用 来 设 定 最 佳 的 
Cache way 数 目 、 每 个 Cache way 的 容量 。 


Cache way 0 内 存 


line 2 


Cache way ] 


Set-associative Cache 


在 TI 的 c64 十 DSP 内 核 中 ，LIP 使 用 1 way Cache，LID 使 用 2 way 
Cache，L2 不 区 分 程序 和 数据 ， 使 用 4 way Cacheo x86 CPU 使 用 更 多 的 


Cache wayo 


置换 策略 

Cache 的 容量 毕竟 有 限 ，Cache way 也 有 用 完 的 时 候 ， 当 Cache way 
用 完 时 ， 表 来 数据 ， 就 要 替换 其 中 的 一 个 了 ， 那 么 替换 哪个 呢 ? 

党 用 的 替换 策略 有 : 

(1) 随机 (Random) ， 随 便 找 个 替换 。 

(2) 先进 先 出 (First In First Out，FIFO) ， 最 早 被 使 用 的 那个 
way 被 替换 。 

(3) 最 近 最 少 被 使 用 (Least Recently Used，LRU) ， 替 换 最 近 
最 少 被 使 用 的 那个 way。 

在 这 几 种 策略 中 ，LRU 性 能 最 好 ，LRU 基 于 Cache 的 时 间 相 天 性 ， 
刚刚 被 访问 的 数据 很 有 可 能 继续 被 访问 ， 很 久 都 没有 被 访问 的 数据 则 


很 可 能 就 不 会 被 访问 了 。 
5.2.4 ”Cache 的 写 方式 一 一 你 不 需要 知道 真相 


前 面 只 提 到 了 Cache 的 读 方式 ， 当 CPU 修改 了 Cache 中 的 数据 ， 内 
存 中 的 数据 需 不 需要 跟着 改变 呢 ? 
Cache 提 供 了 两 种 写 策略 。 


1。Write through ( 写 通 ) 


Write through 策 略 是 指 每 次 CPU 修 改 了 Cache 中 的 内 容 ，Cache 立 
即 更 新 内 存 的 内 容 。 如 下 图 所 示 : 
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CPU 读 入 变量 x 
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CPU 将 x 改 为 5 


在 上 面 的 这 个 例子 中 ， 内 核 读 入 了 变量 x， 它 的 值 为 3， 不久 后 内 
核 将 x 改 成 5， 内 核 修改 的 是 Cache 中 的 数据 ， 当 Cache 采 用 Write 
through 策 略 时 ，Cache 控 制 器 将 x 的 值 更 新 到 内 存 中 。 


2。Write back ( 写 回 ) 


Write back 策 略 是 指 内 核 修改 Cache 的 内 容 后 ，Cache 并 不 会 立即 更 
新 内 存 中 的 内 容 ， 而 是 等 到 这 个 Cache line 因 为 某 种 原因 需要 从 Cache 
中 移 除 时 ，Cache 才 更 新 内 存 中 的 数据 。 例 如 ，Cache 的 line 0 已 经 存储 
了 内 存 line 0 的 数据 ， 内 核 想 修改 地 址 在 内 存 line 0 中 的 变量 ， 它 实际 上 
修改 的 是 Cache line 0 中 的 数据 ， 当 内 核 访问 内 存 line 4 时 ， 这 块 数据 也 
需要 使 用 Cache line 0， 这 时 Cache 控 制 器 会 先 将 Cache line 0 的 内 容 更 新 
到 内 存 的 line 0， 然 后 再 将 Cache line 0 作为 内 存 line 4 的 缓存 。 内 存 line 
0 在 很 长 时 间 内 存储 的 都 不 是 最 新 的 数据 ， 不 过 这 并 不 影响 程序 的 正确 
性 。 


Interconnection 


CPU 读 入 变量 x 


Cachet( x=5) 


Interconnection 


有 


CPU 将 x 改 为 5 

在 上 面 的 这 个 例子 中 ， 内 核 修改 了 x， 但 是 x 并 没有 被 更 新 到 内 存 
中 。 

Write through ( 写 通 ) 由 于 有 大 量 的 访问 内 存 的 操作 ， 效 率 较 
低 ， 大 多 数 处 理 器 都 使 用 Write back 〈 写 回 ) 策略 。 

Cache 怎 么 知道 这 行 的 数据 有 没有 被 修改 呢 ? 这 就 需要 新 增 一 个 标 
志 一 一 dirty 标 志 。dirty 标 志 为 1， 表 示 Cache 的 内 容 被 修改 ， 和 内 存 的 
内 容 不 一 致 ， 当 该 Cache line 被 移 除 时 ， 数 据 需 要 被 更 新 到 内 存 ，dirty 
标志 位 为 0 〈 称 为 clean) ， 表 示 Cache 的 内 容 和 内 存 的 内 容 一 致 。 


下 图 为 增加 了 dirty 标 志 的 Cache 结 构 : 


增加 dirty 标 志 的 Cache 结 构 
程序 Cache 不 会 被 修改 ， 不 需要 dirty 标 志 ， 数 据 Cache 需 要 dirty 标 


Cache line 3 


/NO 


5.3 ”Cache 一 致 性 


5.3.1 ”一致 性 问题 的 产生 一 一 信息 不 对 称 导 致 的 问题 


现实 生活 中 常常 会 出 现 因为 沟通 不 畅 而 导致 的 扯皮 ， 一 方 改 变 了 
某 些 东西 ， 又 没有 及 时 通知 到 另 一 方 ， 导 致 两 方 掌握 的 信息 不 一 致 ， 
这 就 是 一 致 性 问题 。 

多 核 处 理 器 也 有 这 样 的 问题 ， 在 下 面 这 个 简单 的 多 核 处 理 器 示例 
中 ， 内 存 中 有 一 个 数据 x， 它 的 值 为 3， 它 被 缓存 到 Core 0 和 Core 1 中 ， 
不 过 Core 0 将 x 改 为 5， 如 果 Core 1 不 知道 x 已 经 被 修改 了 ， 还 在 使 用 旧 
的 值 ， 就 会 导致 程序 出 错 ， 这 就 是 Cache 的 不 一 致 。 


多 核 处 理 器 


Cache( x=5) Cache(X=3 ? 


Interconnection 


Memory( Xx=3) 


Cache 的 不 一 致 示例 


5.3.2 Cache 一致 性 的 底层 操作 


为 了 保证 Cache 的 一 致 性 ， 处 理 器 提供 了 两 个 保证 Cache 一 致 性 的 
底层 操作 : Write invalidate 和 Write update。 
Write invalidate ( 置 无 效 ) : 当 一 个 内 核 修改 了 一 份 数据 ， 其 他 内 
核 上 如 果 有 这 份 数据 的 复制 ， 就 置 成 无 效 (invalid) 。 
在 下 面 的 这 个 例子 中 ，3 个 Core 都 使 用 了 内 存 中 的 变量 x，Core 0 
将 它 修改 为 5， 其 他 Core 就 将 自己 对 应 的 Cache line 置 成 无 效 
(invalid) 。 


多 核 处 理 器 


Write invalidate 示 例 


Write update 〈 写 更 新 ) : 当 一 个 内 核 修 改 了 一 份 数据 ， 其 他 地 方 
如 果 有 这 份 数据 的 复制 ， 就 都 更 新 到 最 新 值 。Write update 示 例如 下 : 


多 核 处 理 器 


Memory ( x=5) 


Write update 示 例 
Write invalidate 和 Write update 比 较 : Write invalidate 是 一 种 很 简单 
的 方式 ， 不 需要 更 新 数据 ， 如 果 Core 1 和 Core 2 以 后 不 再 使 用 变量 x， 
这 时 候 采 用 Write invalidate 就 非常 有 效 。 不 过 由 于 一 个 valid 标 志 对 应 一 
个 Cache line， 将 valid 标 志 置 成 invalid 后 ， 这 个 Cache line 中 其 他 的 本 来 
有 效 的 数据 也 不 能 被 使 用 了 。Wirite update 策 略 会 产生 大 量 的 数据 更 新 
操作 ， 不 过 只 用 更 新 修改 的 数据 ， 如 果 Core 1 和 Core 2 会 使 用 变量 x， 


那么 Write update 就 比较 有 效 。 由 于 Write invalidate 简 单 ， 大 多 数 处 理 
器 都 使 用 Write invalidate 策 略 。 


5.3.3” Cache 一致 性 协议 


Write invalidate 提 供 了 实现 Cache 一 致 性 的 简单 思想 ， 处 理 器 上 会 
有 一 套 完 整 的 协议 ， 来 保证 Cache 一 致 性 。 比 较 经 典 的 Cache 一 致 性 协 
议 当 属 MESI 协 议 ， 奔 腾 处 理 器 有 使 用 它 ， 很 多 其 他 的 处 理 器 都 是 使 用 
它 的 变种 。 

前 面 介绍 的 Cache 中 每 个 Cache line 有 两 个 标志 : dirty 和 valid 标 
志 ， 它 们 很 好 的 描述 了 Cache 和 Memory (内 存 ) 之 间 的 数据 关系 ( 数 
据 是 否 有 效 、 数 据 是 否 被 修改 ) ， 而 在 多 核 处 理 器 中 ， 多 个 核 会 共享 
一 些 数 据 ，MESI 协 议 就 包含 了 描述 共享 的 状态 。 

在 MESI 协 议 中 ， 每 个 Cache line 有 4 个 状态 ， 可 用 两 个 bit 表 示 ， 它 
们 分 别 是 : 


状态 描述 
M (Modified) 这 行 数据 有 效 ， 数 据 被 修改 了 ， 和 内 存 中 的 数据 不 
致 ， 数 据 只 存在 于 本 Cache 中 
E (Exclusive) 这 行 数 据 有 效 ， 数 据 和 内 存 中 的 数据 一 致 ， 数 据 只 
存在 于 本 Cache 中 
S (Shared) 这 行 数据 有 效 ， 数 据 和 内 存 中 的 数据 一 致 ， 数 据 存 


+ ' F AP 9 4 
在 于 很 多 Cache 中 


1 (Invalid) 这 行 数 据 无 效 


M (Modified) 和 E (Exclusive) 状态 的 Cache line， 数 据 是 独 有 
的 ， 不 同 点 在 于 M 状 态 的 数据 是 dirty 的 (和 内 存 的 不 一 致 ) ，E 状 态 的 
数据 是 clean 的 (和 内 存 的 一 致 )。 

S (Shared) 状态 的 Cache line， 数 据 和 其 他 的 Cache 共 享 。 只 有 
clean 的 数据 才能 被 多 个 Cache 共 享 。 

I (Invalid) 表示 这 个 Cache line 无 效 。 

FE 状态 示例 如 下 : 

只 有 Core 0 访问 变量 x， 它 的 Cache line 状 态 为 E (Exclusive) 。 


S 状 态 示例 如 下 : 
3 个 Core 都 访问 变量 x， 它 们 对 应 的 Cache line 为 S (Shared) 状态 。 
M 状 态 和 I 状态 示例 如 下 : 


De dy 


Cache (x=3) 


Cache (x=3) 


Cache( x=3) 


nterconnection 


Memory (x=3) 


M 状 态 和 I 状态 


Core 0 修改 了 x 的 值 之 后 ， 这 个 Cache line 变 成 了 M (Modified) 状 
态 ， 其 他 Core 对 应 的 Cache line 变 成 了 I (Invalid) ) 状态 。 

在 MESI 协 议 中 ， 每 个 Cache 的 Cache 控 制 器 不 仅 知 道 自 己 的 读 写 操 
作 ， 而 且 也 监听 (snoop) 其 他 Cache 的 读 写 操作 。 每 个 Cache line 所 处 
的 状态 根据 本 核 和 其 他 核 的 读 写 操作 在 4 个 状态 间 进 行 迁 移 。 

MESI 协 议 状 态 迁 移 图 如 下 : 
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MESI 协 议 状态 迁移 图 


Modified 


在 上 图 中 ，Local Read 表 示 本 内 核 读 本 Cache 中 的 值 ，Local Write 
表示 本 内 核 写 本 Cache 中 的 值 ，Remote Read 表 示 其 他 内 核 读 其 他 Cache 
中 的 值 ，Remote Write 表示 其 他 内 核 写 ee 箭头 表示 本 
Cache line 状 态 的 迁移 ， 环 形 箭 头 表示 状态 不 

当 内 核 需要 访问 的 数据 不 在 本 Cache 中 ， 而 其 他 Cache 有 这 份 数据 
的 备份 时 ， 本 Cache 既 可 以 从 内 存 中 导入 数据 ， 也 可 以 从 其 他 Cache 中 
导入 数据 ， 不 同 的 处 理 器 会 有 不 同 的 选择 。MESI 协 议 为 了 使 自己 更 加 
通用 ， 没 有 定义 这 些 细 节 ， 只 定义 了 状态 之 间 的 迁移 ， 下 面 的 描述 假 
设 本 Cache 从 内 存 中 导入 数据 。 

MESI 状 态 之 间 的 迁移 过 程 如 下 : 


TA 
当前 状态 事件 行为 下 一 个 状态 
I(Invalid) Local Read 如 果 其 他 Cache 没有 这 份 数 据 ， 本 Cache 从 内 存 中 E/S 


取 数 据 ，Cache line 状态 变 成 E; 

如 果 其 他 Cache 有 这 份 数 据 ， 且 状态 为 M， 则 将 数 

据 更 新 到 内 存 ， 本 Cache 再 从 内 存 中 取 数 据 ， 两 个 

Cache 的 Cache line 状态 都 变 成 S; 

如 果 其 他 Cache 有 这 份 数据 ， 且 状态 为 S 或 者 E， 

本 Cache 从 内 存 中 取 数 据 ,这 些 Cache 的 Cache line 

状态 都 变 成 S 

Local Write 了 内 存 中 取 数 据 ， 在 Cache 中 修改 ， 状 态 变 成 M;， M 

如 果 其 他 Cache 有 这 份 数 据 ， 且 状态 为 M， 则 要 先 

将 和 数据 更 新 到 内 存 ; 

如 果 其 他 Cache 有 这 份 数据 , 则 其 他 Cache 的 Cache 


line 状态 变 成 1 
ee 


”事件 行为 下 一 个 状态 
I(Invalid) Remote Read 既然 是 Invalid， 别 的 核 的 操作 与 它 无 关 I 
Remote Write 妓 然 是 Invalid， 别 的 核 的 操作 与 它 无 关 I 
E(Exciusive) Local Read 了 Cache 人 数据 ， 状 态 不 变 E 
Local Write 医改 Cache 中 的 数据 ， 状 态 变 成 M M 
Remote Read 据 其 他 核 共用 ， 状 态 变 成 了 S S 
Remote Write op 据 被 修改 ， 本 Cache line 不 能 再 使 用 ， 状 态 变 成 1 1 
S{(Shared) Local Read 从 Cache 中 取 数 据 ， 状 态 不 变 S 
Local Write 修改 Cache 中 的 数据 ， 状 态 变 成 M， 其 他 核 共 享 的 M 
Cache line 状态 变 成 1 
Remote Read 状态 不 过 S 
Remote Write 数据 被 修改 ， 本 Cache line 不 能 再 使 用 ， 状 态 变 成 1 1 
M(Modified) Local Read 从 Cache 中 取 数 据 ， 状 态 不 变 M 
Local Write 收 改 Cache 中 的 数据 ， 状 态 不 变 M 
Remote Read 这 行 数据 被 写 到 内 存 中 ， 使 其 他 核能 使 用 到 最 新 的 S 
数据 ， 状 态 变 成 S 
Remote Write 这 行 数据 被 写 到 内 存 中 ， 使 其 他 核能 使 用 到 最 新 的 ] 


数据 ， 由 于 其 它 核 会 修改 这 行 数据 ， 状 态 变 成 1 


AMD 的 Opteron 处 理 器 使 用 从 MESI 中 演化 出 的 MOESI 协 议 ， 
(Owned) 是 MESI 中 S 和 M 的 一 个 合体 ， 表 示 本 Cache line 被 修改 ， 和 
内 存 中 的 数据 不 一 致 ， 不 过 其 他 的 核 可 以 有 这 份 数 据 的 复制 ， 状 态 为 
9o 

Intel 的 core 这 处 理 器 使 用 从 MESI 中 演化 出 的 MESIF 协 议 ，F 

(Forward) 从 Share 中 演化 而 来 ， 一 个 Cache line 如 果 是 Forward 状 态 ， 
它 可 以 把 数据 直接 传 给 其 他 内 核 的 Cache， 而 Share 则 不 能 。 

前 面 的 这 些 协议 ， 由 于 每 个 Cache 都 需要 监听 (snoop) 总 线 上 的 
所 有 操作 ， 因 此 也 称 为 监听 (snoop) 协议 ， 监 听 协 议 由 于 实现 简单 ， 
被 大 多 数 处 理 器 使 用 。 不 过 监听 协议 的 沟通 成 本 很 高 ， 还 有 一 种 协议 
叫 目录 协议 ， 它 采用 集中 管理 的 方式 ， 将 Cache 共 享 的 信息 集中 在 一 
起 ， 类 似 于 一 个 目录 ， 只 有 共享 数据 的 Cache line 才 会 交互 数据 ， 减 少 

了 沟通 成 本 。 


5.4 上 乒 内 可 寻 址 存储 器 一 一 软件 管理 的 Cache 


在 x86 处 理 器 中 ， 处 理 器 内 部 的 存储 器 全 部 作为 Cache 使 用 ， 不 纳 
入 存储 空间 的 编 址 ，Cache 对 程序 员 是 透明 的 ，Cache 完 全 由 处 理 器 硬 
件 来 管理 ， 程 序 员 不 需要 关心 Cache， 编 程 也 简单 。 

而 在 DSP 等 性 能 要 求 很 高 的 骨 入 式 处 理 器 中 ， 处 理 器 内 部 的 存储 
器 一 部 分 作为 Cache; 另 一 部 分 作为 可 寻 址 存储 器 ， 程 序 员 可 直接 访问 
这 部 分 空间 。 

为 什么 在 处 理 器 内 部 需要 可 寻 址 存储 器 呢 ? 

因为 Cache miss 是 不 可 避免 的 ， 当 发 生 Cache miss 时 ， 处 理 器 要 伦 
大 量 的 时 间 等 待 数 据 ， 而 可 寻 址 存储 器 可 以 由 程序 员 自 己 管理 ， 也 就 
可 以 有 效 地 控制 数据 miss。 


处 理 器 内 部 存储 器 


Cache 可 寻 址 存储 器 


(对 程序 员 不 可 见 ) (对 程序 员 可 见 ) 


DSP 片 内 的 SRAM 包 含 Cache 和 可 寻 址 存储 器 


有 3 个 原因 会 导致 Cache miss: 

Compulsory (必须 的 ) miss， 第 一 次 访问 程序 或 数据 时 ， 这 些 数 
据 没 有 在 Cache 中 ， 于 是 就 导致 了 Cache miss。 这 种 Cache miss 是 不 可 
避免 的 ， 因 此 叫做 Compulsory miss。 

Capacity (容量 ) miss，Cache 容 量 毕 竟 有 限 ， 当 Cache 已 满 ， 新 数 
据 又 要 进来 ， 就 必须 重新 搬移 ， 这 就 叫做 Capacity miss。 

Conflict (冲突 ) miss， 有 时 候 Cache 虽 然 还 有 空 亲 空间 ， 但 是 这 
个 地 址 对 应 的 Cache line 已 经 被 使 用 了 ， 也 会 导致 Cache miss， 这 就 叫 
做 Conflict miss。 


Cache 要 等 到 CPU 访问 数据 时 ， 才 从 内 存 中 将 数据 取 进 来 ， 而 此 时 
CPU 只 能 等 待 。 如 果 处 理 器 内 部 有 了 可 寻 址 存储 器 ， 就 可 以 通过 软件 
控制 DMA (Direct Memory Access) 将 以 后 需要 的 数据 提前 搬 到 处 理 
器 内 部 ， 这 就 省 去 了 不 少 CPU 的 等 待 时 间 。DMA 是 处 理 器 中 专业 负责 
数据 搬移 的 模块 。 


时 间 


CPU 需要 访问 数组 x 


Cache AT ER 
机 制 | CPU 运作 CPU 运 何 
TU 


DMA 搬 移 x 


Cache 和 和 DMA 对 比 


在 上 面 的 这 个 例子 中 ， 程 序 知道 CPU 什么 时 候 要 访问 数组 x， 于 是 
通过 控制 DMA 提 前 搬移 数据 ， 而 Cache 不 知道 ， 它 没 法 提前 搬 。 因 此 
使 用 DMA 的 方式 ， 程 序 总 的 执行 时 间 要 比 使 用 Cache 的 方式 少 。 

DMA 的 任务 就 是 快速 的 搬移 数据 ， 而 数据 的 组 织 形 式 千 差 万 别 。 
例如 ， 在 多 媒体 领域 ， 语 音 数据 通常 采用 一 维 数 组 的 形式 存储 ， 图 像 
数据 采用 二 维 数组 来 存储 ， 彩 色 图 像 包含 多 个 分 量 (如 RGB、YCbCr 
等 ) ， 各 个 分 量 又 独立 存储 。DSP 的 DMA 也 相应 提供 了 1D、2D、3D 
的 数据 搬移 方式 ， 如 下 图 所 示 : 


fw 
己 


DMA 的 1D，2D，3D 操 作 

1D 方 式 搬运 一 块 连续 地 址 的 空间 ，2D 方 式 可 看 作 由 多 个 规则 的 
1D 方 式 组 合 而 成 ， 完 成 一 个 1D 操 作 后 ， 地 址 加 上 一 个 固定 偏 移 ， 继 续 
下 一 个 1D 操 作 ，3D 搬 移 也 就 是 多 个 规则 的 2D 搬 移 。 

使 用 DMA 程 序 的 效率 较 高 ， 不 过 程序 员 不 仪 要 关注 代码 和 数据 的 
逻辑 关系 ， 还 要 关心 代码 和 数据 的 存储 位 置 ， 这 对 程序 员 来 说 ， 是 一 
个 不 小 的 挑战 。 通 用 处 理 器 为 了 简化 编程 难度 ， 通 常 只 提供 Cache 这 一 
种 方式 ，DSP 对 程序 性 能 要 求 很 高 ， 通 常 提供 了 Cache 和 DMA 的 组 合 
方式 。 

现在 的 处 理 器 认识 到 传统 Cache 的 缺陷 ， 于 是 也 产生 了 很 多 Cache 
预 取 机 制 ， 如 当 CPU 在 访问 本 行 数据 时 ， 上 自动 取 下 一 行 的 Cache 数 据 。 
处 理 器 也 提供 了 指令 让 程序 员 更 灵活 地 控制 Cache， 以 提高 程序 的 效 


率 。 


第 6 章 ”编写 高 效 代 码 


是 生命 


编程 是 一 门 技术 ， 更 是 一 门 艺 术 。 


时 间 就 


既 要 马 儿 跑 得 快 ， 又 要 马 儿 少 吃 章 。 


导读 一 一 小 新 面试 受挫 记 


小 新 今年 计算 机 专业 大 四 了 ， 各 门 学 科 成 绩 都 很 优秀 ， 于 是 跨 蹄 满 志 ， 一 心 要 找 个 好 单 
位 。 这 天 ， 大 名 里昂 的 G 公 司 给 了 小 新 一 个 面试 机 会 ， 小 新 欣喜 若 狂 。 

面试 时 ， 面 试 官 和 小 新 先 聊 了 些 软件 行业 的 时 法 话题 : 设计 模式 、 敏 捷 、OpenMP 等 ， 
小 新 高 谈 阔 论 ， 面 试 官 也 点 头 附和 ， 小 新 自我 感觉 良好 。 
这 时 ， 面 试 官 拿 出 一 张 白 纸 ， 说 :“ 你 现场 写 一 段 程序 ， 判 断 输 入 的 密码 是 不 是 全 是 数 


字 。 
小 新 心 下 一 喜 ， 居 然 出 这 么 简单 的 题目 ， 自 己 肯定 能 答 得 出 来 。 于 是 三 下 五 除 二 就 在 纸 
上 写 下 了 如 下 程序 : 
for (i=0; lo De) 4 | 
| 
if (isNum(pswd [i])) | 
{ | 


看 了 小 新 的 程序 ， 面 试 官 眉头 紧 感 ， 对 小 新 说 :“ 喔 ， 今 天 就 到 这 里 吧 ， 一 周 内 会 有 通 
知 。” 

小 新 在 家 耐心 等 待 ， 可 是 半 个 月 过 去 了 ， 什 么 消息 也 没有 ， 小 新 才 知 道 自己 没有 通过 。 
小 新 很 纳闷 ， 于 是 找到 了 在 G 公 司 工 作 多 年 的 师兄 大 雄 请 教 原因 ， 大 雄 知道 了 小 新 写 的 程序 
后 ， 哈 哈 大 笑 ， 对 小 新 说 : 

“这 样 的 代码 要 是 写 到 产品 里 面 ， 不 知 要 浪费 多 少 台 服务 器 ， 别 
人 当然 不 会 要 了 。 你 就 不 能 把 strlen (pswd) 提 到 for 循 环 外 面 吗 ? ” 


这 样 的 代码 ， 要 浪 
费 多 少 服务 器 只 | 


面试 


6.1 ”软件 效率 一 一 21 世 纪 什 么 最 重要 ? 效率 ! 
编程 是 一 门 技术 ， 更 是 一 门 艺术 
既 要 马 儿 跑 得 快 ， 又 要 马 儿 少 吃 草 
6.1.1 ”高效 代码 的 意义 一 一 时 间 就 是 生命 ， 时 间 就 是 金钱 


美剧 《24 小 时 》 常 常 有 这 样 的 例子 ， 情 报 部 门 找到 一 张 犯 罪 分 子 
的 照片 ， 然 后 使 用 人 脸 识 别 软件 在 数据 库 中 进行 搜索 ， 这 通常 要 几 十 
分 钟 ， 在 这 个 时 间 空 当 内 ， 杰 克 : 鲍 尔 继续 跟踪 另外 一 条 线索 。 遇 到 恐 
怖 分 子 袭 击 时 ， 时 间 就 是 生命 ， 如 果 人 脸 识别 软件 效率 更 高 ， 更 早 搜 
索 出 结果 ， 就 能 更 早 地 防范 危险 ， 挽 救生 命 。 

服务 器 软件 非常 注重 代码 效率 ， 更 高 效 的 软件 ， 意 味 着 更 短 的 客 
户 响 应 时 间 ， 更 少 的 服务 器 成 本 。 对 于 很 多 互联 网 公司 ， 服 务 器 成 本 
占 了 公司 总 成 本 相当 大 一 部 分 比例 ， 它 们 的 核心 业务 代码 都 是 经 过 严 
格 优 化 的 ， 使 得 每 台 服 务 器 能 服务 更 多 的 用 户 。 

伦 入 式 软件 也 非常 注重 代码 效率 ， 因 为 能 入 式 领 域 对 成 本 要 求 非 
党 苛刻， 老板 都 想 拿 着 486 的 CPU 做 出 Vista 的 效果 ， 这 就 特别 需要 代码 
效率 奇 高 。 在 战场 上 上， 我们 最 喜欢 以 少 胜 多 的 英雄 ， 写 软件 ， 我 们 也 
要 有 拿 着 486 当 奔 4 使 的 霸气 。 

PC 软件 在 代码 效率 上 要 相对 逊色 很 多 ， 反 正 PC 性 能 也 强 ， 很 多 程 
序 员 并 不 重视 代码 的 效率 。 不 过 也 有 不 少 软 件 将 小 巧 、 快 速 作为 自己 
软件 的 卖点 ， 如 QQ 影音 、 电 驴 等 。 从 消费 者 的 角度 来 说 ， 在 功能 一 样 
的 情况 下 ， 自 然 会 选择 小 巧 、 快 速 的 软件 。 

作为 程序 员 ， 我 们 应 该 勤俭 编码 ， 让 代码 使 用 更 少 的 CPU 运算 
量 ， 做 更 多 的 活 。 


6.1.2 ”代码 剖析 一 一 没有 调查 ， 就 没有 发 言 权 


假 与 马 者 ， 非 利 足 也 ， 而 致 生 里; 假 舟 查 者 ， 
非 能 水 也 ， 而 绝 江河 。 君 子 生 非 异 也 ， 善 假 于 物 也 。 


通常 我 们 在 编写 程序 时 ， 第 一 版 总 是 为 了 实现 功能 ， 不 太 注 重 代 
码 效率 ， 第 二 版 才 会 进行 代码 的 优化 。 我 们 读 了 这 么 多 年 的 书 ， 也 都 
明白 了 一 个 道理 : 100 分 的 总 分 ， 从 60 分 提升 到 80 分 ， 不 是 太 难 ， 而 从 
80 分 提升 到 100 分 ， 那 就 很 难 了 。 成 绩 和 努力 程度 常常 呈现 出 如 下 曲 
线 ， 越 到 后 来 ， 收 获 融 越 小 了 。 


fF J” 
[2 者 2 


成 绩 和 努力 程度 的 天 系 曲线 

软件 开发 也 是 同样 一 个 道理 ， 项 目 开 发 都 受到 质量 、 成 本 、 进 度 
三 要 素 的 制约 ， 尤 其 是 在 战机 稍 纵 即 逝 的 商界 ， 时 间 更 是 宝贵 ， 软 件 
性 能 优化 不 可 能 无 休止 的 进行 下 云 ， 达 到 要 求 后 焉 要 收 山 ， 因 此 好 钢 
必须 要 用 在 刀刃 上 ， 我 们 得 先知 道 哪些 代码 值得 优化 ， 哪 些 代码 不 值 
得 优化 。 

毛 主席 教导 我 们 说 ， 没 有 调查 就 没有 发 言 权 ， 调 查 研究 就 像 十 月 
怀胎 ， 解 决 问题 就 像 一 朝 分 娩 。 软 件 性 能 优化 的 第 一 步 就 是 调查 程序 
各 个 模块 (或 郊 数 ) 的 执行 时 间 ， 检 验 自己 的 代码 是 否 高 效 。 


美剧 《犯罪 心理 》 中 常 出 现 一 个 词 : “profile”， 意 思 是 剖析 犯罪 
分 子 的 心理 ， 这 个 词 用 在 软件 开发 中 ， 就 叫 软件 性 能 剖析 。 性 能 剖析 
工具 能 分 析出 每 个 国 数 (有 的 工具 能 分 析 到 每 个 循环 ) 的 执行 时 间 。 

我 们 在 做 软件 开发 时 ， 可 以 使 用 的 性 能 剖析 软件 有 很 多 ， 如 IBM 
的 Rational Quantify、Intel 的 VTune、AMD 的 CodeAnalyst，DSP 的 软件 
集成 开发 环境 中 也 自 带 有 这 种 工具 。 
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在 没有 工具 时 ， 我 们 也 可 以 手工 编写 代码 来 实现 profile 的 功能 。 
处 理 器 上 都 有 计数 器 ， 每 个 时 钟 周期 累加 一 次 ， 操 作 系统 会 提供 访问 
计数 器 的 水 数 ， 通 过 在 一 段 代码 前 后 访问 计数 器 ， 得 到 它们 的 差 值 ， 
再 配合 处 理 器 的 工作 频率 ， 就 可 以 知道 这 段 代码 执行 的 时 间 了 。 知 道 
了 各 个 模块 的 执行 时 间 之 后 ， 就 能 优先 优化 占用 时 间 长 的 模块 。 

光 说 不 练 假 把 式 ， 真 刀 真 枪 真 功夫 ， 从 下 节 开 始 ， 我 们 就 来 介绍 
怎么 编写 高 效 的 代码 。 


6.2 减少 指令 数 一 一 勤俭 持家 


程序 是 由 一 条 一 条 的 指令 组 成 ， 要 执行 的 程序 指令 数 减少 了 ， 自 
然 执行 时 间 也 就 减少 了 。 在 微 架构 章节 中 ， 我 们 介绍 了 处 理 器 减少 指 
令 数 的 技术 ， 其 实 ， 减 少 指令 数 的 工作 ， 更 应 该 是 程序 员 自 己 的 责 
任 。 


6.2.1 ”使 用 更 快 的 算法 一 一 算法 ， 程 序 设计 的 灵魂 


数学 家 高 斯 小 学 的 时 候 就 知道 了 用 更 简洁 的 算法 来 减少 计算 量 。 
高 斯 的 老师 出 了 道 数 学 题 : 1 十 2 十 3..…. 十 100=? 在 别 的 同学 还 在 用 
一 个 一 个 加 法 兰 算 的 时 候 ， 高 斯 很 快 就 写 出 了 答案 5050， 他 的 方法 是 
用 (100 十 1) x100/2 代 替 了 99 个 加 法 。 

算法 的 优化 ， 能 明显 的 减少 执行 程序 所 需要 的 指令 数 ， 也 即 运算 
量 。 比 较 有 名 的 快速 算法 包括 : FFT 算 法 (快速 侍 里 叶 变 换 ) 、 快 速 
排序 算法 等 。 在 数据 结构 与 算法 中 ， 时 间 复 杂 度 O 用 来 描述 算法 所 需 
要 的 运算 量 ， 对 n 个 元 素 进 行 排序 ， 冒 泡 排序 算法 的 时 间 复 杂 度 为 O 
(nxn) ， 快 速 排序 算法 的 时 间 复 杂 度 为 O (nxlog n) 。 当 n 较 大 时 ， 
快速 排序 算法 所 需要 的 指令 数 就 远 远 少 于 冒 泡 排序 算法 。 


高 斯 的 算法 
法 领域 的 牛人 们 


Niklaus Wirth 一 一 Pascal 语 言 之 父 ， 他 提出 了 著名 公式 “算法 十 数据 结构 = 程序 "”。 当 然 ， 
算法 不 仅仅 可 以 用 在 程序 上 ， 硬 件 也 一 样 用 ， 处 理 器 上 也 包含 了 不 少 算法 ， 如 分 支 预测 算 
法 、 乱 序 调度 算法 等 。 

James Cooley 一 一 FFT (快速 伟 里 叶 变 换 ) 的 发 明 人 ，FFT 是 信号 处 理 领 域 使 用 最 为 广泛 


的 算法 ， 语 音 处 理 、 无 线 通 信和 都 会 使 用 到 它 ， 图 像 、 视 频 也 会 使 用 到 它 的 变种 。 
Tony Hoare 一 一 快速 排序 算法 (Quick Sort) 的 发 明 人 ， 这 个 算法 是 当前 世界 上 使 用 最 广 
泛 的 算法 之 一 。 
Edsger Wybe Dijkstra 图 论 中 最 短路 径 算法 的 发 明 人 ， 这 个 算法 也 称 为 Dijkstra 算 法 。 
Don E. Knuth 一 一 著 有 经 典 著作 《计算 机 程序 设计 艺术 》， 该 书 被 誉 为 算法 中 的 圣经 。 


6.2.2 ”选用 合适 的 指令 一 一 合适 的 人 做 合适 的 事 


处 理 器 除了 一 些 常用 的 加 法 、 移 位 、 乘 法 等 指令 外 ， 还 有 一 些 完 
成 复杂 功能 的 指令 ， 例 如 ，DSP 中 的 乘 累加 指令 、 求 绝对 值 指令 ，x86 
中 的 SIMD 指 令 等 。 在 用 高 级 语言 编程 时 ， 编 译 器 常常 不 会 使 用 到 这 些 
指令 ， 而 是 用 多 条 简单 的 指令 去 实现 它们 ， 这 时 就 需要 程序 员 自 己 去 
使 用 它们 。 

使 用 这 些 复杂 指令 ， 最 直接 的 方式 当然 是 写 汇编 语言 ， 不 过 汇编 
语言 编程 难度 太 大 ， 还 好 ， 编 译 器 提供 了 一 种 方便 使 用 汇编 指令 的 方 
式 : Intrinsic function。 例 如 ，SSE3 中 的 指令 addsubps ， 它 对 应 的 


Intrinsic function 为 _mm_addsub_ps，Intrinsic function 的 使 用 方式 和 普 
通 函 数 一 样 : 

W=_mm addsub ps (u, Vv) ; 

虽然 它 看 起 来 像 个 函数 调用 ， 不 过 它 不 是 真正 的 函数 ， 它 会 被 编 
译 器 翻译 成 对 应 的 汇编 指令 。u 和 v 也 不 是 函数 的 参数 ，u 是 指令 
addsubps 的 第 一 个 操作 数 ，V 是 指令 addsubps 的 第 二 个 操作 数 。 数 据 类 
型 是 128bit。 

手工 优化 过 的 纯 汇 编 ， 性 能 当然 是 最 高 的 ， 不 过 也 是 最 不 易 编程 
和 可 移植 性 最 差 的 ， 使 用 标准 C 语 言 编程 ， 易 编程 ， 可 移植 性 高 ， 不 
过 性 能 也 差 ，Intrinsic function 是 介 于 它们 中 间 的 一 种 产物 。 对 于 调用 
次 数 非常 多 、 非 常 影响 性 能 的 模块 ， 可 以 使 用 汇编 对 其 优化 ， 对 于 一 
般 影 响 程序 的 模块 ， 可 以 使 用 Intrinsic function 对 其 优化 ， 其 他 模块 ， 
使 用 标准 C 即 可 。 


性 # 


:能 


| = 易 编 程 性 /可 移植 性 
汇编 、Intrinsic function、 标 准 C 在 性 能 和 可 移植 性 关系 


6.2.3 ”降低 数据 精度 一 一 比特 也 要 省 着 用 


我 们 知道 ， 小 数 点 后 面 的 位 数 越 多 ， 数 据 越 精确 。 例 如 ，100.11 
列 比 100.1 精 确 ， 而 越 精确 的 效 据 ， 所 需要 的 bit 数 也 越 多 。 浮 点 数 有 单 
精度 和 双 精 度 两 种 格式 ， 单 精度 浮 点 数 占 32 bit， 双 精度 浮 点 数 占 64 
bit， 处 理 双 精 度 的 浮 点 数 自然 要 比 单 精度 浮 点 数 慢 。 


在 C 语 言 中 ，fabsf () 是 计算 单 精度 浮 点 数 绝对 值 的 图 数 ，fabs 
() 是 计算 双 精 度 浮 点 数 绝 对 值 的 施 数 ， 所 以 ， 如 果 数 据 是 单 精 度 浮 
点 数 ， 使 用 fabsf () 就 比 fabs () 快 ， 很 多 程序 员 并 没有 注意 到 这 个 
区 别 。 如 果 一 个 数据 用 单 精 度 能 表示 ， 就 不 需要 使 用 双 精 度 了 。 


6.2.4 ”减少 函数 调用 一 一 不 要 老 打 断 我 


汶 数 是 结构 化 程序 设计 的 产物 ， 它 使 代码 更 加 模块 化 ， 耦 合 性 更 
低 ， 重 用 性 更 高 。 不 过 ， 阔 数 调用 会 带 来 额外 的 开销 ， 除 了 5 引起 跳 转 
外 ， 还 会 产生 额外 的 指令 。 

人 都 有 这 样 的 经 验 ， 做 一 件 事情 时 ， 如 果 被 人 打 断 ， 重 新 再 回来 
做 这 件 事 情 ， 就 需要 一 段 恢复 时 间 ， 如 果 老 是 被 打 断 ， 那 事情 就 没 法 
做 了 。 函 数 调用 也 是 这 样 ， 要 进行 参数 压 栈 出 栈 、 寄 存 器 保存 、 指 令 
跳 转 等 。 多 个 步骤 如 果 程 序 的 性 能 要 求 较 高 ， 就 可 以 将 一 些小 的 函数 
直接 转换 成 代码 。 


1。 将 小 函数 直接 写成 语句 


下 面 这 个 求 最 小 值 的 函数 ， 可 以 直接 用 函数 的 内 容 蔡 换 闵 数 调 
用 。 


_ 

int min{int a, int b) 

| { | 

rotuyurn a<b? ar by | 

! | 

c= minla, b) | 
// 直 接 写 为 


c = a<b? a: b; 
2。 将 小 函数 写成 宏 


如 果 调 用 的 地 方 很 多 ， 用 函数 调用 的 方式 会 显得 代码 简洁 。 一 种 
即 保持 代码 简洁 又 能 减少 函数 调用 的 做 法 是 将 阔 数 体 声明 为 安 。 


#define min(la,b) ((a}<(b)) ? (a) : (b) 


C = minl(a,b); 


3. 将 函数 声明 为 内 联 函 数 


如 果 嫌 改 为 宏 的 方法 太 麻 烦 ， 还 有 一 种 简单 的 方法 ， 就 是 将 水 数 
声明 为 inline， 编 译 器 会 自动 用 遂 数 体 覆 盖 遂 数 调用 。 


inline int min(int a, int b) 
{ 
return a<b? a: b; 
} 
C = min(a, b); 
/ /编译 器 会 将 代码 优化 成 


c= a<b? a; b; 


6.2.5 ”空间 换 时 间 一 一 我 们 总 是 在 走 ， 却 未 了 停留 


时 间 和 空间 的 关系 ， 是 霍金 这 种 智商 的 人 要 研究 的 东西 ， 我 们 只 
需要 知道 ， 在 编程 时 ， 空 间 是 可 以 换 时 间 的 ， 时 间 也 是 可 以 换 空间 
的 。 

李开复 在 他 的 自传 《世界 因 你 不 同 》 中 描述 了 他 小 时 候 在 美国 学 
校 里 的 一 个 故事 ， 老 师 出 了 道 题 :“ 谁 知道 /7 等 于 多 少 ? ”小 开 复 马上 
大 声 回 答 : “0.142857”， 老 师 和 同学 们 都 惊 呼 开 复 是 个 天 才 ， 其 实事 
实情 况 是 ， 开 复 以 前 在 台湾 时 就 记 下 了 这 个 答案 。 这 就 是 一 个 典型 的 
以 空间 (存储 ) 换 时 间 的 例子 。 

再 举 一 个 编程 的 例子 : 打印 0 全 40 的 Fibonacci 序 列 。 

Fibonacci 序 列 : 

F (n) 三 1， n 一 0 或 1 

F (n) =F 一 1 十 F An 一 2) n>1 

代码 如 下 : 


int ft{int 


if (n<=1) 


n) 


return 1; 


int arr[40]; 


rt 


int results; 


if{n <= 1) 


result =arr[n~1] +arr[n-2]; 


} 


} arr[n] = result; 
return f(n-1) + f(n-2); return result; 
int main{) int main() 
| BE + 

int result; int result; 

int i: in 

for (i=0; 1 < 40; 主 #+) for (i=0»: i < 40;»; 主 目 +) 
result = f(i); result = f{i); 
printf ("%d\n", result); printf ("sd\n", result); 

} 


} 


使 用 左边 的 代码 ， 在 我 的 电脑 上 需要 耗费 21 秒 ， 而 如 果 使 用 右边 
的 代码 ， 则 耗 时 不 到 1 秒 。 右 边 的 代码 使 用 了 一 个 数组 ， 将 F 的 值 缓存 
起 来 ， 这 样 计算 F (n) = 二 F (n 一 1) 十 F (n 一 2) 时 就 不 需要 递归 执 
行 ， 直 接 从 数组 中 取 值 相 加 即 可 。 可 见 ， 空 间 换 时 间 的 效果 是 多 么 的 
明显 。 


Fibonacci 其 人 
Fibonacci 是 在 越狱 中 指证 John Abruzzi 的 污点 证 人 ， 后 被 Michael 发 现 藏匿 地 址 的 那个 人 


吗 ? 

非 也 ， 此 Fibonacci 是 意大利 12 世 纪 著 名 数学 家 Leonardo Pisano Fibonacci。 在 他 的 一 本 书 
中 ， 他 提出 了 这 么 一 个 有 趣 的 问题 :“ 假 定 一 对 兔子 在 它们 出 生 整 整 两 个 月 以 后 可 以 生 一 对 
小 兔子 ， 其 后 每 隔 一 个 月 又 可 以 再 生 一 对 小 兔子 。 假 定 现 在 一 个 笼子 里 有 一 对 刚 生 下 来 的 小 
兔子 ， 请 问 一 年 以 后 笼子 里 应 该 有 几 对 锡 子 ? ”这 个 问题 的 数学 建 模 ， 就 是 FibonaCci 序 列 。 


在 商业 上 最 成 功 的 空间 换 时 间 的 例子 是 Google 和 上 百度 的 搜索 引擎 
算法 ， 当 我 们 提交 一 个 搜索 请 求 时 ， 搜 索引 擎 并 不 是 现场 给 我 们 搜 


索 ， 要 在 这 么 短 的 时 间 内 搜索 全 球 数 不 尽 的 网 页 是 不 可 能 的 ， 它 只 是 
将 已 经 搜索 好 的 网 页 呈现 给 我 们 。 


6.2.6 ”减少 过 保护 一 一 打 不 破 的 部 门 墙 


很 多 人 都 有 这 样 的 认识 : 在 大 型 软件 项 目 中 ， 做 正事 的 代码 量 只 
占 一 小 部 分 ， 大 部 分 的 代码 被 用 于 防止 各 种 异常 及 进行 相应 的 错误 处 
理 。 

对 函数 输入 参数 进行 校 验 是 编程 必 不 可 少 的 工作 ， 在 大 型 软件 开 
发 中 ， 函 数 的 调用 和 函数 的 实现 常常 是 不 同 的 人 写 的 ， 有 时 因为 沟通 
不 畅 ， 国 数 内 部 会 对 参数 进行 校 验 ， 函 数 调用 处 又 对 参数 进行 了 校 
验 ， 这 样 就 多 余 了 ， 当 程序 性 能 实在 是 吃紧 时 ， 可 以 去 掉 这 些 过 保 
护 。 在 大 型 项 目 开 发 中 ， 分 工时 可 以 明确 划分 各 自 的 任务 ， 避 免 实 现 
一 些 风 余 功能 。 


6.3 ”减少 处 理 器 不 擅长 的 操作 一 不 要 到 我 做 我 
不 喜欢 的 事情 


尺 有 所 短 ， 寸 有 所 长 ， 每 种 处 理 器 都 有 自己 擅长 与 不 擅长 的 操 
作 。 

在 与 处 理 器 配套 发 布 的 指令 集 手册 中 ， 都 会 描述 每 个 指令 的 执行 
周期 ， 单 周期 指令 是 处 理 器 最 喜欢 的 ， 不 仅 执 行 时间 短 ， 而 且 利 于 流 
水 线 执行 。 加 、 减 、 逻 辑 运算 等 ， 单 音 是 单 周 期 指令 ， 乘 、 除 、 分 支 
指令 、 浮 点 指令 、 内 存 存 取 操 作 等 ， 音 单 需要 较 多 的 时 钟 周期 。 我 们 
在 编程 时 ， 就 应 该 少 使 用 执行 时 间 长 的 指令 。 

Q: 这 些 复 杂 指 令 都 有 它 的 用 途 ， 说 少 用 就 能 少 用 的 吗 ? 

A: 机 香 豆 的 ' 苘 ' 字 都 有 4 种 写法 ， 更 何况 是 号 称 艺 术 的 软件 ， 很 
多 时 候 ， 我 们 只 需要 稍微 变通 一 下 ， 就 可 以 化 腐朽 为 神奇 。 正 所 请 ， 
条 条 大 路 通 罗 马 ， 不 过 代价 各 不 同 。 


这 段 代 码 有 4 种 写法 


编程 是 门 艺术 


6.3.1 ” 少 用 乘法 
定点 乘法 在 DSP 中 需要 两 个 Cycle， 而 移 位 操作 只 要 1 个 Cycle， 如 
果 是 一 个 数 乘 以 2 的 N 次 方 ， 就 可 以 用 移 位 代替 乘法 。 例 如 : 
len = len*#; a : 各 
改 为 下 面 的 写法 更 好 : 
len = len <<2} We J 
6.3.2 ” 少 用 除法 、 求 余 


除法 、 求 余 需要 消耗 大 量 的 时 间 ， 很 多 处 理 器 没有 相应 的 指令 ， 
是 通过 软件 来 实现 的 ， 应 尽量 少 用 。 如 果 要 除 以 一 个 单数 ， 如 下 面 的 
浮 点 除法 : 


可 以 将 它 转换 为 乘法 : 
| jdefine 人 


| 于 mm CD 下; 


6.3.3 ”在 精度 允许 的 条 件 下 ， 将 浮 点 数 定点 化 


浮 点 指令 要 比 定点 指令 慢 很 多 ， 功 耗 也 大 很 多 ， 在 精度 要 求 不 那 
么 高 的 情况 下 ， 就 可 以 将 浮 点 数 定点 化 ， 用 定点 指令 来 代替 浮 点 指 
令 ， 一 个 典型 的 例子 区 是 alpha 瘟 合 。 

《反恐 精英 》 是 很 多 人 非 党 喜欢 的 游戏 ， 在 下 面 的 游戏 截图 中 ， 
一 个 人 护 了 个 烟雾 弹 ， 画 面 呈现 出 半 透 明 的 烟雾 效 果 ， 随 着 时 间 的 推 
移 ， 烟 雾 逐 新 散 去 ， 男 面 恢复 到 原来 的 状态 。 

这 种 效果 如 果 让 美工 来 实现 ， 那 会 把 人 累 死 ， 其 实 这 种 效果 在 计 
算 机 中 可 以 通过 将 两 张 图 像 进 行 半 透 明 的 混合 来 实现 ， 这 就 是 图 像 的 
alpha 混 合 。 混 合 后 新 图 像 每 个 像素 的 颜色 值 为 : 


Pixel C= (int) (Pixel A * alpha + Pixel Be ( l-alpha })); | 


"ae 


blurer 《为 IO in the holel 
pilusr (FADiOF Fire in the holw1 
er (HADIOY: Fire 3 bolel 
Jur RADIO): Firy jn Bn hole! 

sb. ™、 


CS 中 的 烟雾 弹 效 果 
alpha 为 透明 度 ， 是 介 于 0 和 1 之 间 的 小 数 。 随 着 时 间 的 推移 ， 烟 雾 
图 像 的 alpha 值 越 来 越 小 ， 当 alpha 为 0 时 ， 烟 雾 效 果 就 完全 消失 。 
这 条 语句 是 一 个 浮 点 运算 ， 由 于 图 像 上 的 每 个 像素 都 要 经 过 这 样 
的 运算 ， 相 当 耗 时 ， 其 实 可 以 将 alpha 定 点 化 为 0 一 32 之 间 的 一 个 整数 
值 ，0 表 示 完 全 显示 B 图 像 ，32 表 示 完 全 显示 A 图 像 ， 中 间 分 32 个 等 
级 ， 这 个 代码 可 以 改 为 : 


由 于 全 部 是 定点 语句 ， 执 行 时 间 大 幅 减 少 。 
6.3.4 ”尽量 减少 分 支 


我 们 在 介绍 处 理 器 时 ， 已 经 知道 了 ， 现 在 的 处 理 器 都 是 流水 线 结 
构 ，if 和 和 switch 等 语句 会 带 来 跳 转 ， 而 跳 转 会 打 乱 流水 线 的 正常 执行 ， 
影响 程序 的 执行 效率 。 


下 面 这 段 代 码 ， 把 奇数 赋 一 个 值 ， 把 偶数 赋 一 个 值 ， 可 以 用 这 种 
方式 实现 : 


for (i=0; i<l100; i++) \ 
{ 


if (i$2 == 0) 


6.3.5 ”将 最 可 能 进入 的 分 支 放 在 if 中 ， 而 不 是 else 中 


Intel 处 理 器 有 分 支 预 测 单元 ， 第 一 次 进入 一 个 分 支 时 ， 由 于 没有 
历史 信息 可 供 参 考 ， 是 否 跳 转 取决 于 Static Predictor (静态 预测 器 ) 的 
预测 策略 ， 通 单 Static Predictor 的 策略 是 : 向 下 跳 转 预测 为 不 跳 转 ， 向 
上 跳 转 预测 为 跳 转 。 根 据 这 个 特性 ， 我 们 在 写 if else 语 句 时 ， 也 要 注 
意 。 且 看 下 面 这 段 代码 是 否 合 适 ? 


我 们 来 看 看 汇编 语言 : 


4: int a = -5} 

00401028 mov dword ptr [ebp-4],0FFFFFFFBh 
-二 int Db = 0; 

0040102F mov dword ptr [ebp-8],0 
6: "3 

00401036 cmp dword ptr [ebp-4},0 
0040i03A jle main+35h (00401045) 
[小 - { 

8: b= 13; 

0040103C mov dword ptr [ebp-8],1 
9: } 

10: else 

00401043 jmp main+3ch (0040104c) 
Np { 

12: b = 2; 

00401045 mov dword ptr [ebp-8],2 
33 } 


读者 没 必要 管 这 么 一 大 串 汇编 语言 是 什么 意思 ， 只 需要 知道 jle 是 

个 条 件 跳 转 指令 就 可 以 了 ， 它 跳 到 地 址 00401045 处 ， 是 向 下 跳 ， 根 据 

Static Predictor 的 策略 ， 它 被 预测 为 不 跳 转 ， 处 理 器 会 从 0040103C 地 址 

处 开始 取 下 一 条 指令 。 再 看 看 实际 的 执行 情况 ，a<0， 执 行 else 这 个 分 

支 ， 于 是 处 理 器 发 现 取 错 了 地 址 ， 又 要 从 头 来 过 ， 白 白浪 费 了 大 量 时 
间 。 可 见 ， 执 行 概率 高 的 分 支 ， 应 该 放 在 if 分 支 中 。 


6.4 ”优化 内 存 访问 一 一 别 让 包容 拖 垮 了 你 


从 理论 上 看 ， 每 条 运算 指令 的 执行 时 间 都 很 短 ， 大 多 数 指令 一 个 
Cycle 就 能 完成 ， 很 多 时 候 还 能 一 个 Cycle 执行 多 条 指令 ， 可 是 实际 
上 ， 执 行 指令 只 是 处 理 器 要 做 的 很 少 一 部 分 工作 ， 处 理 器 还 要 从 存储 
器 中 取 指 令 ， 从 存储 器 中 将 数据 导入 到 寄存 器 中 ， 等 算 完 后 ， 再 将 结 
果 存 入 到 存储 器 中 。 

处 理 器 运算 的 速度 像 兔子 赛跑 一 样 快 ， 但 是 存储 器 的 访问 速度 像 
乌龟 走路 一 样 慢 ， 而 且 越 是 远离 内 核 的 存储 器 ， 访 问 速度 越 慢 。 

下 面 这 个 表 是 在 几 个 x86 处 理 器 中 ， 内 核 访问 各 级 数据 Cache 和 内 
存 所 需要 的 Cycle 数 : 


处 理 器 Level 1 data Cache Level 2 data Cache 内 存 
P3 3 8 | 140 
P4 2 19 350 
PM《〔〈 奔 腾 MD) 3 10 80 
Core2( 酶 容 ) 3 14 185 


Opteron ( 卑 龙 ) 3 13 100 

从 这 张 表 可 以 看 出 ， 从 L1 中 访问 数据 速度 还 较 快 ， 但 是 仍然 要 慢 
于 运算 的 速度 ， 从 L2 中 访问 数据 速度 还 能 将 就 ， 从 内 存 中 访问 数据 就 
无 法 忍受 了 。 我 们 应 该 尽量 减少 内 存 的 访问 ， 要 访问 ， 也 要 尽量 避免 


Cache misso 


6.4.1 ” 少 使 用 数组 ， 少 使 用 指针 


由 于 大 块 数 据 会 被 放 在 存储 器 中 ， 简 单 局 部 变量 才 会 被 放 在 寄存 
器 中 ， 因 此 应 该 尽量 少 用 数组 、 指 针 ， 多 用 简单 局 部 变量 。 
下 面 这 上段 程序 ， 需 要 4 次 内 存 访问 : 


C = a{lij * pb[i]? 


Id= a[li] + bli}? 
. 


如 果 改 成 如 下 的 形式 ， 就 只 有 两 次 内 存 访 间 了 : 


X= 
Y = bli]; 
( wm XX $ 


d=X+ yy; 


6.4.2 ” 少 用 全 局 变量 


全 局 变量 因为 要 被 多 个 模块 使 用 ， 不 会 被 放 到 寄存 器 中 ， 局 部 变 
量 才能 被 放 在 寄存 器 中 ， 应 尽量 避免 使 用 全 局 变量 。 下 面 这 段 程序 : 


1 


int fun a {) 


{ 
nt Y， 
Y = x} 
二 区 + 
最 好 改 为 : 
= 


int fun a () 


t y emp 
| Lemp = 其 ? 
YY = temp; 
= temp py 


6.4.3 ”一 次 多 访问 一 些 数据 


我 们 通常 会 有 这 样 的 生活 常识 ， 要 去 很 远 的 地 方 ， 就 会 多 带 一 些 
东西 ， 要 去 近 一 点 的 地 方 ， 就 会 少 带 一 些 东 西 。 既 然 数 据 访 问 速 度 较 
慢 ， 我 们 就 一 次 多 访问 些 数据 。 处 理 器 将 这 些 为 我 们 考虑 到 了 ， 通 常 
都 提供 了 较 大 的 数据 带宽 。 


以 C64 DSP 为 例 ， 通 常 一 条 指令 ， 一 次 对 两 个 32bit 的 数据 做 处 
理 ， 而 它 却 1 次 可 以 访问 两 个 64bit 数 据 。 

在 DSP 中 ，SIMD 指 令 和 普通 指令 共用 寄存 器 ， 有 些 数据 虽然 不 能 
用 SIMD 指 令 处 理 ， 我 们 也 可 以 一 次 将 内 存 中 的 多 个 数据 搬入 到 寄存 器 
中 ， 用 简单 指令 分 别处 理 ， 当 要 存储 时 ， 将 分 散 的 寄存 器 组 合 在 一 个 
连续 的 位 置 ， 再 将 数据 输出 到 内 存 中 。 由 于 操作 寄存 器 远 比 操作 存储 
器 快 ， 虽 然 多 了 些 数据 的 拆 分 和 组 合 的 操作 ， 代 价 还 是 值得 的 。 


6.4.4 ”数据 对 齐 访问 


在 32 位 处 理 器 中 ， 一 个 int 型 变量 占 4 个 byte， 假 设 这 个 变量 i 在 内 
存 中 占据 2、3、4、5 这 4 个 byte 的 位 置 ， 如 下 图 所 示 。 


0 | 2 3 级 涌 5 6 


0 


数据 非 对 齐 存储 

内 核 在 访问 这 个 数据 时 ， 会 先 将 从 0 开始 的 4 个 byte 读 入 到 寄存 器 A 
中 ， 再 将 从 4 开始 的 4 个 byte 读 入 到 寄存 器 B 中 ， 再 将 有 效 的 数据 拼 成 一 
个 int 数 据 ， 放 在 寄存 器 C 中 ， 可 见 ， 这 种 访问 效率 是 多 么 的 低下 啊 ， 
如 果 变 量 i 存 储 在 从 0 开始 的 4 个 byte 处 ， 那 么 内 核 一 次 就 能 将 i 读 入 到 寄 
存 器 中 ， 这 就 是 数据 对 齐 与 不 对 齐 的 访问 差别 。 对 于 2 字 节 的 变量 , 它 
的 起 始 地 址 应 该 为 2 的 整数 倍 ， 对 于 4 字 节 的 变量 ， 它 的 起 始 地 址 应 该 
为 4 的 整数 倍 ， 对 于 8 字 节 的 变量 ， 它 的 起 始 地 址 应 该 为 8 的 整数 倍 ， 这 
样 访问 效率 才 高 。 


处 理 器 通常 都 会 提供 对 齐 的 数据 访问 指令 和 非 对 齐 的 数据 访问 指 
令 ， 对 齐 的 数据 访问 指令 效率 要 远 高 于 非 对 齐 的 数据 访问 指令 。 


6.4.5 ”大 数据 结构 时 的 Cache line 对 齐 


程序 会 被 Cache 到 程序 Cache 中 ， 数 据 会 被 Cache 到 数据 Cache 中 ， 
从 前 面 可 知 ， 如 果 发 生 Cache miss， 会 等 待 大 量 的 时 间 。 

Intel 处 理 器 的 Cache line 大 多 为 64 byte， 在 对 一 个 大 数据 结构 (如 
一 个 大 数组 或 大 结构 体 ) 分 配 内 存 时 ， 数 据 结构 的 起 始 地 址 最 好 为 64 
byte 的 整数 倍 ， 这 样 Cache miss 的 次 数 最 少 。 例 如 ， 一 个 64 byte 的 数 
组 ， 如 果 起 始 地 址 不 是 64 的 整数 倍 ， 则 它 会 占据 两 个 Cache line， 访 问 
时 产生 两 次 cache miss， 如 果 起 始 地 址 是 64 的 整数 倍 ， 则 只 会 占据 1 个 
Cache line， 访 问 时 只 产生 1 次 Cache miss。 

在 Windows 平 台 上 ， 可 以 使 用 下 面 的 语句 来 指定 对 齐 ， 在 这 条 指 
令 中 ， 将 数组 指定 为 64 byte 对 齐 。 


declspec(align(64)) int BigArray[l1024]; 


6.4.6 ”程序 、 数 据 访 问 符合 Cache 的 时 间 、 空 间 局 部 性 


Cache 正 是 利用 了 程序 、 数 据 访 问 时 的 时 间 局 部 性 和 空间 局 部 性 ， 
为 了 使 Cache 的 访问 效率 最 高 ， 程 序 和 数据 的 组 织 ， 也 应 该 要 符合 这 两 
个 特性 。 最 典型 的 例子 就 是 二 维 数组 的 访问 ， 下 面 就 是 一 个 二 维 数 
组 : 


mhTTT 
本 加 本 加 区 


二 维 数 组 


如 果 a[li][j] 在 Cache 中 ， 那 么 ali][j 十 1] 就 很 可 能 也 在 Cache 中 ， 但 是 
a[i 十 1][j 则 不 一 定 。 于 是 代码 这 样 写 就 不 太 好 : 


ftozr (j=0; j<5007 j++) 
{ . 
for (i=0; i<500; i++) 


{ 
sum += al{lil] [j}; 


} 


应 该 采用 如 下 的 写法 ，Cache 的 效率 才 高 : 


for (i=0; i<500; i++) 
{ 
for{(j=0; j<500; j++) 
{ 
sum += a[li] [j]; 
} 


再 来 看 另 一 个 例子 ， 在 下 面 的 这 段 代 码 中 : 


int a[4], b[4], i; 
for (i = 0; i < 4; i++) 
{ 


b[li] = Func(a{lil]); 
} 


如 果 a 和 b 数 组 存放 在 不 同 的 Cache line 中 ， 一 开始 访问 a 会 产生 一 
次 Cache miss， 一 开始 访问 b 也 会 产生 一 次 Cache miss， 如 果 a 和 b 数 组 
存放 在 一 个 Cache line 之 中 ， 则 只 会 产生 一 次 Cache miss。 

在 一 起 使 用 的 数据 放 在 一 起 能 减少 数据 的 Cache miss， 在 一 起 使 
用 的 函数 放 在 一 起 能 减少 程序 的 Cache miss。 

程序 的 组 织 也 要 符合 Cache 局 部 性 原则 。 例 如 ， 一 个 程序 大 小 为 
40K Bytes， 经 常 使 用 的 代码 占据 30K， 很 少 使 用 的 代码 (如 初始 化 、 
异常 处 理 等 ) 占据 10K， 指 令 Cache 为 32K Bytes， 这 上段 程序 是 无 法 完全 
放 在 Cache 中 的 ， 我 们 可 以 将 经 常 执行 的 代码 放 在 一 起 ， 将 很 少 使 用 的 
代码 放 在 一 起 。 这 样 经 常 使 用 的 代码 就 能 完全 进入 Cache 中 ， 减少 了 
Cache misso 

有 些 较 好 的 编译 器 能 分 析 国 数 的 调用 关系 ， 并 合理 的 安排 图 数 的 
存储 位 置 ， 以 提高 指令 Cache 的 命中 效率 。 


6.4.7 “多 线程 编程 时 ， 避 免 false sharing 


在 多 核 上 运行 多 线程 是 提高 程序 运行 效率 的 重要 手段 。 多 核 间 同 
步 常常 需要 共享 (share) 一 些 变量 ， 而 如 果 线 程 间 从 算法 上 并 不 需要 
共享 变量 ,但 是 在 实际 执行 时 ， 它 们 所 用 的 数据 处 于 同一 个 Cache line 
中 ， 就 会 引起 Cache 冲 突 ， 严 重 降 低 程 序 效 率 ， 这 种 现象 叫做 false 
sharing 《〈 假 共享 ) 。 

在 下 面 的 这 个 例子 中 ， 某 程序 员 开 辟 一 个 数组 Arr， 将 Arr[0] 给 绪 
程 0 用 ，Arr[1] 给 线程 1 用 ， 线 程 0 在 内 核 0 中 执行 ， 线 程 1 在 内 核 1 中 执 
行 ， 数 组 Arr 既 被 Cache 到 内 核 0 中 ， 又 被 Cache 到 内 核 1 中 ， 如 果 线 程 0 
修改 了 Arr[0] 的 内 容 ， 那 么 Cache 一 致 性 协议 就 会 使 内 核 1 的 这 行 Cache 
无 效 ， 导 致 线程 1 发 生 Cache miss， 同 样 的 过 程 也 会 发 生 在 线程 1 修改 
Arr[1l]。 


LI1 cache L1 oe 
人 
L2 cache Ar[9] Arr[l] 


false sharing 示 例 


false sharing 会 导致 大 量 的 Cache 冲 突 ， 应 该 尽量 避免 。 解 决 false 
sharing 的 办 法 就 是 将 多 个 线程 访问 的 数据 放置 在 不 同 的 Cache line 中 。 

false sharing 是 数据 伪 共 享 ， 而 多 线程 编程 不 可 避免 的 要 遇 到 数据 
共享 ， 编 程 时 应 该 注意 如 下 原则 : 

(1) 尽量 少 共享 数据 。 

(2) 尽量 少 修改 数据 。 

(3) 尽量 少 频 繁 的 修改 数据 。 


6.4.8 ”自己 管理 内 存 动 态 分 配 
编程 时 通常 会 遇 到 链表 这 种 数据 结构 ， 下 面 是 一 个 单 向 链表 的 例 


村 [| | 
单 向 链表 的 逻辑 结构 

上 面 这 个 图 描述 了 单 向 链表 的 逻辑 结构 ， 节 点 在 内 存 中 的 存储 位 
置 可 以 任意 ， 当 节点 2 和 节点 5 要 被 释放 时 ， 一 般 的 做 法 是 修改 链表 的 
指向 ， 然 后 调用 free 了 因数 将 节点 2 和 节点 5 的 空间 释放 掉 。 当 要 新 增 节 
点 7、 节 点 8 时 ， 再 调用 malloc 函 数 申请 空间 ， 再 将 指针 链接 好 。 

这 种 结构 频繁 的 使 用 动态 内 存 分 配 ， 一 次 两 次 也 就 算 了 ， 可 是 如 
果 频 繁 的 动态 分 配 和 释放 内 存 ， 它 的 缺点 就 暴露 无 遗 ， 表 现在 : 


(1) malloc、free 因 数 会 耗费 大 量 的 执行 时 间 。 

(2) 会 产生 内 存 碎 片 ， 浪 费 内 存 空间 。 

(3) 有 可 能 导致 内 存 泄 露 ， 分 配 的 内 存 志 记 了 释放 。 
(4) 空间 比较 分 散 ， 增 大 了 Cache miss 的 可 能 性 。 

在 敬 入 式 这 种 时 间 和 空间 都 非常 紧张 的 环境 下 ， 使 用 这 种 方式 很 
可 能 无 法 满足 性 能 的 要 求 ， 这 时 我 们 可 以 自己 实现 动态 内 存 的 管理 ， 
解决 上 面 的 几 个 问题 。 

一 次 性 开辟 一 大 块 空间 ， 划 分 出 N 个 节点 ， 将 节点 的 指针 链接 成 
一 个 链表 ， 将 要 释放 的 节点 2 和 节点 5 链接 在 一 个 free list (回收 链表 ) 
上 ， 如 下 图 所 示 。 

当 要 分 配 新 的 节点 时 ， 不 需要 调用 malloc 国 数 ， 只 需要 从 free list 
中 找 一 个 节点 链接 在 节点 链表 上 即 可 ， 这 样 就 避免 了 频繁 的 malloc 和 
free。 这 种 方式 非常 适合 于 每 个 节点 长 度 相等 的 情况 。 


we a i = i Wn i i 
we - pe 
Us 
f 大 | ] 4 人 


free list 结 构 


6.4.9 ”隐藏 数据 搬移 时 间 


如 果 处 理 器 内 部 有 可 寻 址 的 SRAM， 应 当先 用 DMA 将 数据 搬移 到 
处 理 器 内 部 ， 这 样 内 核 访 问 数 据 的 速度 要 快 很 多 。 

对 于 很 多 有 Cache 预 取 机 制 的 处 理 器 ， 也 可 以 让 Cache 提 前 去 预 取 
数据 ， 如 下 图 所 示 。 


数据 搬移 DMA /Cache 搬移 x 


隐藏 数据 搬移 时 间 


6.5 ”充分 利用 编译 器 进行 优化 一 编译 器 : 我 才 
是 优化 第 一 高 手 


6.5.1 ”编译 器 的 结构 一 一 知己 知 彼 ， 百 战 不 列 


战场 上 讲究 知己 知 彼 ， 百 战 不 列 。 写 代码 时 ， 这 个 彼 就 是 编译 
器 ， 因 为 编译 器 将 我 们 写 的 高 级 语言 转换 为 处 理 器 执行 的 汇编 语言 ， 
程序 的 执行 效率 ， 在 这 一 阶段 就 已 经 决定 了 一 大 半 了 。 我 们 首先 应 该 
知道 编译 器 能 做 什么 。 

下 图 描述 了 编译 器 的 基本 结构 。 

编译 器 像 处理 器 一 样 ， 也 被 分 成 了 前 端 和 后 端 ， 前 端 分 析 高 级 语 
言 代码 的 文本 ， 生 成 中 间 代 码 ， 后 端 对 这 个 中 间 代 码 做 通用 优化 和 针 
对 处 理 器 的 优化 ， 生 成 在 处 理 器 上 执行 的 目标 代码 。 

那么 编译 器 能 做 什么 优化 呢 ? 


编译 器 结构 
6.5.2 ”编译 器 提供 了 几 级 优化 选项 一 一 分 级 管理 


编译 器 提供 了 诸多 优化 功能 ， 将 这 些 优化 功能 都 开放 给 程序 员 进 
行 选择 ， 这 样 太 多 也 太 复 杂 了 ， 于 是 编译 器 将 优化 功能 组 合成 几 个 等 
级 ， 开 放 给 程序 员 进 行 配 置 。 例 如 ， 编 译 选项 -O00 表示 不 优化 或 进行 
很 小 的 优化 ，-O1 到 -O03 分 别 对 应 3 个 级 别 的 优化 。-03 一 般 是 文件 内 部 
的 优化 ， 跨 文件 的 编译 器 优化 ，Intel 编 译 器 使 用 -ipo (Interprocedural 
Optimization) ，TIDSP 使 用 -pm。 

编译 器 优化 常常 会 带 来 程序 空间 的 增加 《如 自动 做 函数 inline 
等 ) ， 对 于 有 些 和 做 入 式 系统 ， 存 储 空间 有 限 ， 这 时 就 不 能 过 度 优 化 ， 
致使 程序 过 大 。 编 译 器 通常 会 开放 一 些 选 项 来 让 程序 员 配 置 时 间 和 空 
间 的 平衡 ， 在 VC 6.0 中 ， 程 序 员 可 以 选择 maximize speed 或 者 是 
minimize size， 在 TIDSP 中 ， 程 序 员 使 用 -ms0 告 诉 编译 器 要 减少 程序 大 


小 。 
6.5.3 ”编译 器 会 计算 常量 
如 下 的 代码 ; 


Bg ar’ Db? 
玉 
编译 器 会 自动 计算 出 2.0/3.0， 将 代码 改 为 : 
a= b+ 0.66606666666660666666667} 
6.5.4 ”简单 的 表达 式 化 简 


如 下 的 代码 : 


nt Br Dr Gs 
b = (a+5) * (af+5) 7 


Be (a+5) 了 #2; 


编译 器 会 转换 为 : 


int ar b, ec temp? 


temp = at+s; 
b wm temp * 七 emP7 


c= temp >> 27? 
6.5.5 ”提取 公共 语句 


如 下 代码 : 


i = 100; 
while (i<0) 
{ 


i += Xt+y} 
#p = 主 》 


编译 器 会 分 析出 x 十 y 是 独立 于 while 循 环 之 外 的 ， 能 将 x 十 y 提 取出 


temp = x+y? 
while (i<0) 
{ 
i 十 = temp; 
$D wm i} 


如 下 代码 : 


double x, y, Zi bool b; 
if {b) 
{ 


y = Sm(X) 7， 
-i i re th 


了 = Cos(x); 
2 ny 4 1.0; 


编译 器 会 将 z 二 y 十 1.0 提 取出 去 。 


double x, y, z? bool hb; 
if {b) 
{ 


z 


y = Sin(xX)? 


Y = COS (X) ; 


} 
z= y+ 1.0; 


6.5.6 ”循环 展开 、 软 件 流水 


将 二 八 定 律 用 在 程序 执行 时 间 上 ， 那 就 是 20% 的 代码 占据 80% 的 
执行 时 间 ， 这 些 20% 的 代码 就 是 循环 代码 。 在 VLIW 章 节 中 ， 我 们 已 
经 描述 了 编译 器 能 对 循环 进行 展开 ， 进 行 软件 流水 。 为 了 使 编译 器 能 


有 效 的 优化 循环 ， 编 译 器 需要 知道 一 些 信息 ， 如 在 C6000 DSP 中 ， 我 
们 可 以 在 循环 代码 前 通过 预 编 译 指令 告诉 编译 器 一 些 信息 。 


/ /告诉 编 译 器 for 循环 至 少 执行 4 次 ， 最 多 执行 256 次 ， 循 环 次 数 是 4 的 整数 倍 
#pragma MUST ITERRATE (4，256,4) 
for () 


6.5.7 ”自动 向 量化 


SIMD 指 令 在 各 种 处 理 器 上 都 是 非常 常见 ， 编 译 器 也 会 分 析 代 码 的 
行为 ， 尽 量 多 使 用 SIMD 指 令 ， 不 过 ， 编 译 器 自动 向 量化 ， 通 常 需要 程 
序 员 告诉 编译 器 一 些 信息 。 

下 面 这 段 代 码 是 Intel 优 化 手册 中 的 例子 : 


void add {float *restrict afloat w*restrict b,float *restrict Cc) 
{ 

nt -本 

for (1 = 0; i < 4; i++) 

{ 

cli} = ali] + bl{il]; 

} 

} 


这 段 代码 如 果 没 有 关键 字 restrict ， 编 译 器 是 不 会 将 代码 优化 为 
SIMD 指 令 的， 或 者 更 准确 地 说 ， 是 不 敢 。 为 什么 不 敢 呢 ? 

在 下 面 这 个 图 中 ， 每 个 方 格 是 一 个 float 大 小 的 空间 ， 如 果 a 指 向 了 
第 0 个 元 素 ，b 指 向 了 第 2 个 元 素 ，c 指 向 了 第 3 个 元 素 ，SIMD 指 令 一 次 
处 理 4 个 数据 和 一 般 指令 一 次 处 理 一 个 数据 的 结果 是 不 一 致 的。 编译 器 
为 了 保证 程序 执行 的 正确 性 ， 宁 可 错 杀 一 百 ， 不 可 放 过 一 个 ， 不 会 对 
它 进 行 优化 。 


| | 
aliasing (混淆 ) 

restrict 关 键 字 会 告诉 编译 器 a、b、<c3 个 指针 指向 的 空间 是 没有 交 
苔 的 ， 这 样 编译 器 就 能 对 它们 做 合适 的 优化 。 对 于 上 面 这 段 代 码 ， 编 
译 器 就 能 使 用 SIMD 指 令 来 优化 它 。 

除了 restrict 关 键 字 外 ， 编 译 器 还 可 以 通过 编译 选项 来 声明 没有 混 
消 ， 如 VC 6.0 中 这 个 功能 的 编译 选项 叫做 Assume No aliasing，TIDSP 
中 类 似 的 选项 叫 -mt。 

同样 是 下 面 这 个 例子 : (VC 6.0 帮 助 文档 的 例子 ) 


while (i<0) 


如 果 使 用 了 Assume No aliasing， 编 译 器 就 能 将 x 十 y 放 到 循环 的 外 
面 ， 否 则 就 不 会 ， 因 为 p 指 针 有 可 能 指向 x 或 者 y。 


6.5.8 ”高 效 的 数据 组 织 

编译 器 一 个 很 重要 的 功能 就 是 为 程序 中 的 变量 分 配合 适 的 存储 空 
间 ， 保 证 处 理 器 访问 数据 最 高 效 ，Cache 冲 突 最 小 。 

编译 器 也 能 对 遂 数 的 存储 空间 进行 分 配 ， 减 少 程序 Cache 的 Cache 


misso 


6.5.9 ”指令 并 行 化 


VLIW 处 理 器 的 编译 器 还 有 一 项 重要 的 工作 ， 就 是 完成 指令 的 并 
行 化 。 编 译 器 通过 分 析 指令 的 相关 性 ， 实 现 指令 的 乱 序 调度 ， 依 照 处 
理 器 的 功能 单元 将 指令 并 行 起 来 。 

VLIW 处 理 器 通常 寄存 器 数量 较 多 ，C64 DSP 拥 有 64 个 ISA 寄 存 
器 ， 远 多 于 x86， 寄 存 器 数目 多 ， 就 可 以 减少 因为 共用 寄存 器 而 导致 的 
相关 。 为 了 让 编译 器 更 好 地 分 配 寡 存 器 ， 并 更 好 地 分 析 程 序 ， 每 个 函 
数 不 应 过 大 ，for 循 环 也 不 应 太 大 。 

为 了 让 指令 更 好 地 并 行 化 ， 高 级 代码 就 要 减少 数据 的 依赖 性 ， 如 
下 面 这 段 代码 : 


X= a+ hb; 
Y= XxX+ ce? 
head ai} 


改 成 下 面 这 种 形式 ， 第 一 条 语句 和 第 二 条 语句 就 可 以 并 行 执行 
了 。 


X=a+ bb; 


| 
ym C+ dd? 
es 
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6.5.10 ”编译 器 更 懂 处 理 器 一 百度 更 懂 中 文 


虽然 这 章 的 标题 是 编写 高 效 代 码 ， 但 是 实事 求 是 地 说 ， 高 效 代 码 
是 编 出 来 的 ， 更 是 编译 出 来 的 。 编 译 器 才 是 优化 代码 的 第 一 高 手 。 
软件 从 创作 到 使 用 ， 会 经 历 这 3 个 阶段 : 


我 才 是 优化 第 一 高 手 
GO 
全 


编译 器 : 优化 第 一 高 手 


ome em 


J a HS FE 
别 主 侣 绸 译 柱 盯 


处 理 融 执行 指令 


软件 从 创作 到 使 用 的 3 阶段 
编译 器 将 我 们 写 的 代码 编译 成 处 理 器 能 执行 的 指令 ， 我 们 需要 熟 
悉 编 译 器 的 特性 ， 告 诉 它 更 多 的 细节 ， 以 利于 它 更 好 的 为 我 们 优化 代 
但 。 
Intel 称 Intel C/C 十 十 编译 器 比 一 般 的 编译 器 对 相同 的 代码 能 提高 
10% 的 性 能 ， 其 实 原 因 很 简单 ， 套 用 百度 的 广告 语 “ 百 度 更 懂 中 文 ”， 
Intel 更 懂 x86。 


6.6 ”利用 多 核 来 加 速 程 序 一 一 人 多 力量 大 
6.6.1 并 行 计算 


不 少 机 构 热 衷 于 比拼 超级 计算 机 ， 如 中 国 的 “天 河 一 号 ”、“ 星 
云 "， 美 国 的 “美洲 虎 *"”、“ 蓝 色 基 因 ”* 等 ， 超 级 计算 机 通常 由 成 干 上 万 个 
CPU 和 GPU 组 成 ， 运 算 能 力 超 强 。 超 级 计算 机 不 仅仅 是 个 面子 工程 ， 
也 是 很 多 应 用 的 必需 品 。 国 家 的 统计 数据 、 科 研 机 构 的 科学 计算 、 石 
油 公 司 的 地 质 勘测 、 地 震 局 的 地 震 监测 、 互 联网 的 搜索 引擎 、 数 据 挖 
掘 等 ， 靠 几 台 PC 是 无 法 解决 问题 的 ， 还 得 靠 超 级 计算 机 ， 或 者 是 计算 
机 集群 。 

光 把 这 么 多 CPU 和 GPU 放 在 一 起 是 远 远 不 够 的 ， 还 得 靠 软件 将 它 
们 都 管理 起 来 ， 起 完成 一 项 任务 ， 这 就 是 并 行 计算 。 

并 行 计算 长 期 以 来 都 是 在 服务 器 软件 中 得 以 应 用 ， 在 PC 软件 和 李 
入 式 软 件 中 很 少 使 用 ， 这 得 归功 于 处 理 器 单 核 性 能 的 持续 提升 ， 然 
而 ， 现 在 程序 员 的 好 日 子 快 到 头 了 ， 单 核 性 能 已 经 很 难 再 进一步 提 
升 ， 处 理 器 公司 纷纷 推出 多 核 的 处 理 器 ， 多 核 编程 势不可挡 。 

让 多 个 核 或 多 个 CPU 来 共同 完成 一 件 工 作 ， 这 就 好 比 一 个 人 的 任 
务 ， 现 在 有 N 个 人 来 帮忙 ， 这 活 怎 么 分 呢 ? 


1. 分 工 


分 工 的 困惑 
其 实 我 们 从 小 就 会 分 派 任务 ， 也 知道 用 并 行 来 节约 时 间 。 下 面 就 
一 些 常用 的 并 行 化 的 方法 。 
任务 划分 
将 整个 工作 分 成 N 个 独立 的 任务 ， 每 个 核 完成 一 个 任务 。 


9 $0 Sy 


任务 划分 
任务 划分 是 最 常见 的 一 种 并 行 方 式 ， 一 行人 去 野 炊 时 ， 领 队 就 会 
分 配 任务 : 你 去 生火 ， 你 去 措 帐 篷 ， 你 去 洗 食 物 ..… 这 就 是 任务 划 
分 。 


数据 划分 

如 果 一 件 任务 会 处 理 大量 独 立 的 数据 ， 就 可 以 将 这 些 数 据 分 配给 
不 同 的 核 来 处 理 。 数 据 划 分 和 任务 划分 不 同 点 在 于 : 任务 划分 各 个 核 
执行 的 代码 是 不 一 样 的 ， 数 据 划 分 各 个 核 执行 的 代码 是 一 样 的 ， 只 是 
效 据 不 同 。 

小 学 时 打扫 卫生 ， 卫 生 委 员 就 会 分 配 任务 : 你 扫 第 一 组 ， 你 扫 第 
二 组 .…... 这 就 是 数据 划分 。 


数据 划分 
数据 流 划 分 


整个 工作 被 分 成 了 N 个 步骤 ， 每 个 核 负 责 一 个 步骤 ， 这 里 我 们 又 
看 到 了 流水 线 的 思想 ， 数 据 在 它们 之 间 流 动 ， 因 此 也 叫 数 据 流 划分 。 


数据 流 划 分 


通常 一 个 复杂 工作 的 划分 ， 是 上 面 3 种 方式 的 组 合 。 

对 于 搬 砖 头 来 说 ， 两 个 人 要 比 一 个 人 快 。 对 于 画家 作画 来 说 ， 多 
一 个 人 只 能 帮 倒 忙 。 有 些 程序 天 生 就 不 具备 并 行 性 ， 如 递归 的 
Fibonacci 序 列 等 ， 也 就 没有 必要 强行 拆 分 。 


2. Amdahl's Law 


Amdahl 很 早 就 研究 并 行 计算 ， 他 提出 了 一 个 关于 并 行 计 算 提升 效 
率 的 法 则 ， 被 称 为 阿 姆 达 尔 定律 (Amdahl's Law) 。 它 的 基本 思想 
是 ， 程 序 执行 ， 总 会 有 串 行 执行 的 部 分 ， 并 行 计 算 的 效率 提升 取决 于 
两 点 : (WW 可 并 行 部 分 占 总 过 程 的 比例 ;并行 的 程度 。 如 下 图 所 示 。 


捉 行 部 分 可 并 行 部 分 
人 ~ J 


开行 后 时 间 并 行 前 时 间 


Amdahl's Law 


Amdahl 何 许 人 也 

通常 我 们 都 会 有 这 样 的 常识 ， 同 样 一 句 话 ， 牛 人 说 出 来 和 非 牛人 说 出 来 的 效果 是 完全 不 
一 样 的 。 阿 姆 达尔 定律 其 实 很 朴素 ， 很 多 人 都 会 说 ， 不 过 这 个 定律 还 是 以 Amdahl 命 名 ， 并 几 
平 出 现在 每 本 计算 机 书 上 ， 那 么 Amdahl 是 何许 人 呢 ? 


Amdahl 是 IBM 著 名 大 型 计算 机 System/360 的 Chief Architect ， 也 是 IBM Fellow ， 
System/360 第 一 次 提出 了 指令 集体 系 结构 (TSA) ， 实 现 了 软件 的 兼容 性 。 后 来 Amdahl 自 立 
门户 ， 创 立 了 以 自己 名 字 命 名 的 公司 ， 生 产 System/360 兼 容 机 和 外 设 ， 从 此 计算 机 开始 硬件 
兼容 ， 可 以 说 Amdahl 是 计算 机 兼容 性 的 鼻祖 。 


3。 多 线程 编程 


线程 是 处 理 器 上 执行 程序 的 基本 单位 ， 为 了 让 多 个 核 共同 完成 一 
项 工作 ， 工 作 首 先 要 被 分 解 为 线程 ， 然 后 这 些 线程 再 被 分 配 到 不 同 的 


核 上 运行 。 


工作 、 线 程 、 内 核 

操作 系统 提供 了 线程 库 ， 让 程序 员 能 方便 地 使 用 线程 ， 如 Linux 下 
的 POSIX Thread (PThread) 和 Windows 下 的 Win 32 Threads。 

多 线程 编程 并 不 是 一 件 容易 的 事情 ， 线 程 之 间 必 定 会 有 关联 ， 而 
线程 越 多 ， 关 联 越 复杂 ， 程 序 员 通常 会 因为 分 析 不 清 而 导致 程序 出 
错 。 就 像 战 国 时 代 ， 七 个 国家 的 关系 错综复杂 ， 而 像 苏 秦 这 样 一 个 玩 
转 七 国 、 身 挂 六 国 相 印 、“ 一 怒 而 天 下 惧 ， 安 居 而 天 下 煌 ”的 人 毕竟 是 
少数 ， 大 多 数 人 处 理 一 两 个 国家 的 外 交 就 已 经 很 吃力 了 。 

多 线程 编程 要 注意 线程 间 的 同步 ， 既 然 是 多 个 线程 协同 完成 一 件 
工作 ， 线 程 间 必 定 会 有 数据 通信 ， 多 个 线程 读 一 份 数据 还 好 ， 如 果 涉 
及 写 ， 就 像 Cache 一 致 性 一 样 ， 需 要 严格 的 访问 控制 。 通 单线 程 会 使 用 
鬼王 达 王 牌 防守 绝技 一 一 “ 锁 ” 来 防止 多 个 线程 同时 读 写 一 份 数据 ， 当 
一 个 线程 在 访问 数据 时 ， 就 将 这 份 数 据 锁 上 ， 这 样 别 的 线程 就 不 能 访 
问 这 个 数据 了 ， 待 访问 完 后 ， 该 线程 就 释放 这 个 锁 ， 别 的 线程 获取 这 
个 锁 ， 就 可 以 访问 这 份 数 据 了 。 


Core 0 Core | 


起 


写 该 
线程 的 同步 控制 
线程 如 果 分 工 不 好 ， 那 么 CPU 大 量 的 时 间 就 浪费 在 了 线程 间 的 通 
信 上 ， 这 就 好 比 在 公司 里 ， 一 天 到 晚 在 开会 、 沟 通 ， 什 么 正事 也 做 不 
了 。 
多 线程 编程 也 要 注意 负载 均衡 ， 划 分 了 10 个 线程 ， 一 个 线程 累 
4 多， 其 他 9 个 线程 一 下 子 就 做 完了 ， 这 不 公平 ， 会 影响 总 体 的 效率 。 


负载 均衡 
多 线程 编程 还 要 注意 可 扩展 性 ， 现 在 处 理 器 有 4 个 核 ， 划 分 了 4 个 
线程 ， 执 行 起 来 效率 挺 高 ， 如 果 将 来 处 理 器 换 成 了 8 个 核 ，4 个 线程 还 
是 只 能 在 4 个 核 上 运行 ， 效 率 也 没有 提升 ， 这 样 的 划分 方式 就 不 太 好 
了 。 


6.6.2 OpenMP 


不 少 公 司 的 愿景 都 是 使 人 类 的 生活 更 美好 ， 而 要 达到 这 个 目的 ， 
产品 就 应 该 简单 ， 好 的 产品 应 该 像 傻 瓜 相 机 一 样 ， 傻 瓜 也 会 用 。 程 序 
员 也 是 人 ， 我 们 的 生活 也 应 该 更 美好 ， 我 们 的 编程 也 应 该 更 简单 。 

并 行 编程 不 简单 ， 程 序 员 需要 划分 线程 、 分 析 线 程 间 的 数据 关 
系 、 管 理 它们 的 同步 、 控 制 它们 的 负载 均衡 等 ， 这 些 都 是 很 烦琐 的 工 
作 。 不 过 还 好 ， 一 群 计算 机 硬件 和 软件 公司 联合 推出 了 一 套 并 行 编程 
染 构 一 一 OpenMP， 替 我 们 做 了 这 些 工作 。 


OpenMP 专 为 共享 内 存 系统 而 设计 ， 适 用 于 多 核 处 理 器 : 


Pa 


共享 内 存 
OpenMP 不 需要 我 们 编写 多 线程 程序 ， 只 需要 在 代码 中 增加 预 编 
译 措 示 #pragma 及 OpenMP 的 api (application program interface) 即 可 ， 
编译 器 自动 将 代码 划分 为 N 个 线程 去 执行 。 也 就 是 说 ， 程 序 员 通过 
OpenMP 接 口 告 诉 编译 器 怎么 划分 线程 ， 编 译 器 去 实现 多 线程 的 控 
制 。 
一 个 简单 的 OpenMP 使 用 如 下 : 
#pragma omp parallel num threads (8) // 设 置 8 个 线程 数 
#pragma omp parallel for // 将 下 面 for 循环 分 到 8 个 线程 中 执行 


for (i = 0; i < 1024; i++ ) 
{ 


cli] = ali] * bli}; 


} 


在 这 个 例子 中 ， 编 译 器 会 将 这 个 循环 采用 数据 划分 的 方式 ， 分 配 
到 8 个 线程 中 执行 。0 人 127 的 数据 作为 一 个 线程 ，128 人 255 的 数据 作为 


第 7 章 ”SOC 一 了 吸 星 大 法 


连 自 亿 晶 体 管 ， 战 必 胜 ， 攻 必 殉 。 
夫 英 雄 者 ， 胸 怀 大 志 ， 腹 有 上 展 谋 ， 
有 包 藏 宇宙 之 机 ， 告 吐 天 地 之 志 者 也 。 


导读 CPU 与 GPU 的 融合 


CPU 和 显卡 是 决定 电脑 性 能 最 重要 的 两 部 分 ， 随 着 显卡 上 GPU 性 能 及 可 编程 性 的 提高 ， 
GPU 觉得 可 以 挑战 一 下 CPU 的 主导 地 位 ，nVidia 说 CPU 大 势 已 去 ， 会 与 GPU 共存 于 市 场 ， 但 
GPUHCPU 更 为 重要 ，Itel] 则 说 他 们 是 瞎 扯 ， 他 们 之 间 的 口水 仗 就 一 直 没有 停 过 。 

2006 年 ，AMD 以 54 亿 美金 收购 AII， 于 是 AMD 这 个 CPU 的 老 二 ， 和 ATII 这 个 GPU 的 老 二 
走 到 了 一 起 ， 一 起 应 对 Intel/ 和 nVidia。AMD 不 参与 CPU 和 GPU 的 口水 仗 ， 因 为 这 两 个 都 是 自 
己 的 孩子 。 

2011 年 ， 我 们 终于 迎 来 了 CPU 与 GPU 的 融合 ， 不 管 是 英特尔 的 Sandy Bridge 还 是 AMD 的 
Fusion APU， 它 们 的 处 理 器 芯片 都 包含 了 CPU 内 核 和 GPU 内 核 。 而 前 几 年 ， 处 理 器 内 部 就 开 


始 集成 内 存 控制 器 ， 当 处 理 器 内 部 集成 GPU 后 ， 北 桥 必 片 也 就 不 需要 了 ， 现 在 的 处 理 器 运用 
吸 星 大 法 ， 将 越 来 越 多 的 功能 收入 囊 中 ， 它 已 不 再 是 以 前 那个 孤胆 英雄 ， 它 已 经 成 为 了 一 个 
多 面 手 ， 这 时 的 处 理 器 可 以 被 称 为 SOC (System On Chip) 处 理 器 。 
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CPU 与 GPU 之 争 


7.1 SOC 大 一 统 时 代 


7.1.1 SOC 和 IP 


SOC 是 System On Chip (片上 系统 ) 的 缩写 ， 顾 名 思 义 ， 就 是 将 
一 整个 系统 做 在 一 块 心 片上 。 
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从 电路 板 到 SOC 

SOC 通 常 要 包含 至 少 一 个 处 理 器 内 核 ， 那 么 对 于 一 块 包含 处 理 器 
内 核 的 必 片 ， 什 么 时 候 叫 SOC， 什 么 时 候 叫 处 理 器 呢 ? 其 实 半 导体 公 
司 自己 在 心 片 命名 时 也 不 会 分 这 么 清楚 ， 不 过 通常 来 说 ， 如 果 一 块 心 
片 包含 不 同类 型 的 处 理 器 内 核 ， 或 者 一 块 心 片 包含 处 理 器 十 硬件 加 速 
器 的 结构 ， 就 叫 它 为 SOC， 如 果 一 块 心 片 只 有 一 种 类 型 的 处 理 器 内 
核 ， 就 叫 它 为 处 理 器 。 

IP (Intellectual Property) 指 的 是 无 形 资产 ， 如 专利 、 版 权 等 ， 在 
半导体 领域 ，IP 指 的 是 一 块 独立 的 逻辑 或 电路 设计 ， 如 处 理 器 核 、 存 
储 器 核 等 。IP 是 SOC 的 基本 组 成 部 分 ，SOC 就 是 将 一 些 IP 通 过 互联 网 
络 连 接 起 来 。 很 久 以 前 ， 计 算 机 需要 专业 公司 制造 ， 现 在 ， 搭 建 一 个 
计算 机 ， 就 好 像 搭 积 木 一 样 ， 相 信 在 不 久 的 将 来 ， 设 计 一 个 SOC 心 片 
也 像 搭 积木 一 样 简单 。 


Interconnection network 


SOC 与 卫 


Intel 公 司 的 早期 投资 人 Arthur Rock 曾 提出 所 谓 的 Rock 定律 : “制造 
半导体 集成 电路 所 需要 的 主要 设备 的 成 本 每 4 年 就 要 翻 一 番 。” 

Rock 定律 描绘 了 现在 半导体 产业 产生 的 变化 ， 随 着 半导体 制程 工 
艺 的 提升 ， 半 导体 制造 成 本 也 大 幅 攀升 ， 如 果 没 有 一 定 的 心 片 销量 来 
分 摊 成 本 ， 半 导体 公司 很 难 支撑 起 制造 工厂 的 费用 。 不 少 原来 有 晶 圆 
广 的 半导体 公司 都 放弃 了 自己 的 工厂 ， 找 代 工 三代 工 ， 转 向 了 无 晶 圆 
厂 (fabless) 或 轻 晶 圆 片 (fab-lite) 的 业务 模式 。 

与 此 同时 ， 专 业 的 IP 设 计 公 司 越 来 越 多 ， 它 们 将 IP 核 卖 给 半导体 
公司 ， 半 导体 公司 就 像 从 超市 买 一 堆 零件 (IP 核 ) ， 回 来 自己 攒 心 
片 ， 它 们 搭建 成 自己 的 SOC 设 计 ， 自 己 生产 或 者 委托 心 片 代 工 厂 生 产 
出 心 片 ， 然 后 卖 给 设备 商 ， 设 备 商 做 成 设备 ， 卖 给 用 户 。 


IP 枝 SOC 下 :上 Ne PS 


IP 设 计 公 司 


半导体 产业 示例 


7.1.2 SOC 市 场 驱动 力 


人 们 都 喜欢 便于 携带 、 功 能 强大 、 成 本 低 、 功 耗 低 的 产品 ， 这 些 
是 SOC 的 市 场 驱 动力 。 以 现在 的 智能 手机 为 例 ，SOC 心 片 将 众多 的 电 
路 模块 集成 在 一 个 心 片 中 ， 这 才 使 得 现在 的 智能 手机 功能 这 么 强大 ， 
体积 可 以 做 得 这 么 小 ， 同 时 价格 又 低 。 

集成 电路 、 软 硬件 技术 、 仿 真 技 术 的 发 展 使 SOC 得 以 实现 。 集 成 
电路 制程 工艺 的 提高 使 心 片 内 拥有 更 多 的 晶体 管 ， 于 是 设计 师 们 可 以 
在 忆 片 内 设计 更 多 的 电路 ， 完 成 更 多 的 功能 ， 心 片 电路 的 设计 也 离 不 
开 软 硬件 技术 和 仿真 技术 的 支撑 。 


便携 ， 体 积 小 ， 功 能 全 ， 低 功 耗 ， 低 成 本 
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集成 电路 ， 软 件 硬 件 设 计 ， 仿 真 技术 
SOC 的 市 场 驱动 力 和 技术 支撑 


7.2 ITP 核 


SOC 最 早 来 源 于 和 人 能 入 式 系统 ， 手 机 、 平 板 电脑 等 产品 中 有 一 个 重 
要 的 心 片 ， 叫 做 应 用 处 理 器 ( Application Processor) ， 其 作用 就 类 似 
于 PC 中 的 处 理 器 十 显卡 十 南北 桥 ， 应 用 处 理 器 就 是 一 个 最 典型 的 
SOCo 

下 图 为 TI OMAP 应 用 处 理 器 的 基本 结构 : 


CPU 核 DSP 核 Video Engine 核 


ARM 这 显示 子 系统 


Display 
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CPU 核 Penpherals 外 设 与 接口 


TI OMAP 应 用 处 理 器 ( 引 自 TI) 


其 他 公司 的 应 用 处 理 器 结构 也 大 同 小 异 ， 在 一 个 应 用 处 理 器 中 ， 
最 重要 的 部 分 就 是 如 下 4 个 IP 核 : 


应 用 处 理 器 
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GPU Video Engine 
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应 用 处 理 器 中 最 重要 的 4 个 IP 核 


CPU、DSP、GPU 实 际 上 都 是 处 理 器 ， 只 是 各 自 面 向 的 应 用 不 一 
样 ， 处 理 器 结构 有 所 不 同 ， 所 以 有 了 不 同 的 名 字 。 

CPU 更 面向 通用 型 的 应 用 ， 也 就 是 说 它 什 么 都 可 以 做 ， 最 容易 编 
程 。x86、ARM、MIPS、PowerPC 都 可 以 叫做 CPU; DSP 面 向 信号 处 
理 的 应 用 ，DSP 处 理 器 根据 信号 处 理 算法 做 了 特殊 设计 ， 需 要 通过 调 
优 程序 来 提高 程序 的 执行 效率 ; GPU 最 早 是 硬件 化 的 图 形 加 速 设 备 ， 
后 来 逐渐 演化 为 可 编程 的 处 理 器 ， 它 最 适合 于 图 形 算法 。 

在 《 圣 斗 士 星矢 》 中 ， 圣 斗士 几乎 就 是 黄金 圣 斗 士 的 翻版 ， 而 应 
用 处 理 器 上 的 IP 核 也 几乎 能 在 PC 上 找到 翻版 。 
半导体 行业 和 通信 行业 

半导体 行业 和 通信 行业 一 直 是 紧密 相连 的 ， 不 少 半导体 公司 是 从 通信 公司 分 离 出 来 的 ， 
如 Freescale 来 自 于 Motorola，Agere Systems 来 自 于 Lucent。 大 型 通信 公司 大 多 拥有 自己 的 半 
导体 部 门 ， 并 且 实 力 不 凡 ， 而 通信 公司 也 是 各 大 半导体 公司 的 主要 客户 。 高 通 公司 甚至 很 难 
严格 区 分 它 是 属于 半导体 行业 还 是 通信 行业 。 


事实 上 ， 半 导体 是 IT、 通 信 、 骸 入 式 等 行业 的 基石 ， 对 于 通信 行业 尤为 如 此 。 通 信行 业 
作为 基础 设施 ， 服 务 的 用 户 数量 庞大 ， 对 软 硬 件 的 成 本 、 性 能 、 功 耗 等 因素 都 有 严格 的 要 
求 。 通 信 过 程 实际 上 就 是 信号 的 传输 与 处 理 的 过 程 ， 不 管 是 多 媒体 信号 还 是 无 线 信 号 ， 都 需 
要 庞大 的 计算 能 力作 为 支撑 ， 而 半导体 行业 的 发 展 满足 了 通信 行业 的 需求 ， 促 进 了 通信 行业 
的 发 展 。 


7.2.1 CPU IP 


PC 上 最 重要 的 部 件 就 是 CPU， 同 样 手机 的 应 用 处 理 器 中 也 有 
CPU.。CPU 是 整个 系统 的 控制 单元 ， 操 作 系 统 还 有 应 用 程序 都 在 CPU 
上 执行 。 在 PC 上 ， 这 个 CPU 是 x86 内 核 ， 在 手机 上 ， 这 个 CPU 是 ARM 
等 内 核 。 


1. ARM CPU core 


ARM CPU core 最 早 可 追溯 到 1983 年 ， 电 脑 公司 Acom Computer 想 
开发 自己 的 CPU ， 不 过 它 是 个 小 公司 ， 玩 不 起 心 片 ， 于 是 将 自己 的 
CPU 设计 授权 给 VLSI Technology 公 司 ， 这 几乎 是 历史 上 最 早 的 IP 授 
权 ，ARM 成 为 最 老 和 最 成 功 的 IP 设 计 公司 。 有 的 公司 直接 使 用 ARM 授 
权 的 内 核 ， 如 TI、 苹 果 、 三 星 等 ， 有 的 公司 自己 设计 和 ARM 指 令 集 兼 
容 的 CPU， 如 高 通 等 。 

ARM 公 司 历 史上 以 奇数 命名 的 内 核 ， 通 常 都 比较 成 功 ， 如 
AMR7、ARM9 等 ， 都 是 一 代 经 典 ， 而 以 偶数 命名 的 内 核 ， 如 ARM6、 
ARM8、ARM10 等 ， 都 不 太 成 功 ，ARM 公 司 在 ARMI11 后 ， 就 改 用 
Cortex 这 个 品牌 。ARM 的 Cortex 内 核 分 成 了 3 部 分 : Cortex-A、 Cortex- 
R、Cortex-M，A、R、M 合 起 来 就 是 ARM。 

Cortex-A 系 列 用 于 Application processing， 主 要 是 指 应 用 处 理 器 ， 
上 面 运行 操作 系统 和 应 用 程序 ，Cortex-R 系 列 用 于 Real-time embedded 
applications， 即 实时 性 非常 高 的 族 入 系统 ， 如 硬盘 驱动 器 等 ，Cortex- 
M 系 列 用 于 Micro-controller 〈 微 控制 器 ) ， 如 工业 控制 中 的 微 控 制 
器 。 手 机 上 的 应 用 处 理 器 就 使 用 Cortex-A 系 列 ， 如 iPhone 使 用 Cortex- 
A8、iPad2 使 用 Cortex-A9。 Cortex-A8 使 用 的 是 顺序 执行 的 超标 量 结 
构 ，ARM 从 Cortex-A9 开 始 使 用 乱 序 执行 内 核 ， 支 持 青 存 器 重 命 名 ， 
支持 分 支 预 测 。 

使 用 Cortex 命 名 比 使 用 数字 命名 有 一 个 好 处 ， 很 多 人 都 会 混 清 
ARMV7 和 ARM7， 认 为 它们 是 一 个 东西 ， 其 实 ARMV7 是 指令 集 的 代 


号 ，ARM7 是 内 核 的 代号 。ARM7 使 用 ARMv4 指 令 集 ，Cortex 系 列 都 
使 用 ARMv7 指 令 集 。 


2。 其 他 CPU core 


ARM 最 直接 的 竞争 对 手 是 MIPS，MIPS 公 司 一 向 以 高 性 能 处 理 器 
闻名 ，IBM 也 提供 PowerPC 内 核 加 入 到 混战 之 中 ， 其 他 还 有 不 少 公 
司 ， 不 过 ARM 的 地 位 暂时 无 人 能 撼动 。 


7.2.2 GPU IP 


GPU 的 全 称 是 Graphic Processing Unit， 图 形 处 理 器 。GPU 这 个 词 
最 早 来 源 于 图 形 处 理 器 巨头 nVidia，nVidia 的 创始 人 兼 CEO 黄 仁 轩 将 
nVidia 的 历史 分 成 了 3 个 阶段 : 
(1) nVidia 1.0 一 一 提供 固定 功能 的 图 形 产 品 。 
(2) nVidia 2.0 一 一 提供 可 编程 的 GPU。 
(3) nVidia 3.0 一 一 转型 到 并 行 计算 公司 (parallel computing 
company) 。 
在 PC 上 ，GPU 是 游戏 发 烧 友 的 最 爱 ， 在 手机 上 ， 游 戏 、 图 形 用 户 
界面 等 也 离 不 开 GPU 的 支持 。 


游戏 的 另类 价值 
很 多 家 长 谈 游 戏 色 变 ， 很 多 人 也 将 大 好 青春 浪费 在 游戏 上 ， 不 过 也 有 MIT 的 学 者 研究 声 


称 ， 玩 《魔兽 》 能 锻炼 领袖 魅力 ， 玩 《辐射 3》 能 锻炼 沟通 能 力 ， 玩 《CS》 能 锻炼 团队 精 
神 ， 玩 《文明 》 和 《模拟 城市 》 能 锻炼 全 局 观 。 


1. PowerVR graphics core 


手机 上 使 用 最 广泛 的 GPU core 当 属 Imagination Technologies 公 司 开 
发 的 PowerVR graphics core， 它 以 前 面向 PC 市 场 ， 后 来 转战 到 了 手机 
市 场 ，Apple、TI、 三 星 、Intel 等 公司 都 是 它 的 客户 。 


2。 其 他 GPU core 


2006 年 ，ARM 通 过 收购 Falanx， 从 此 也 具备 了 提供 GPU IP core 的 
能 力 。ARM 的 GPUcore 名 字 叫 Mali，Mali-200、Mali-400 也 使 用 较 多 。 
Vivante 公 司 也 提供 GC 系列 的 GPU core。 


7.2.3 DSP IP 


现在 的 智能 手机 中 通常 有 两 个 处 理 器 模块 ， 一 个 是 让 手机 当 PC 用 
的 应 用 处 理 器 ; 另 一 个 是 负责 无 线 通信 的 基带 处 理 器 (Baseband 
Processor) ， 也 叫做 Modem (调制 解 调 器 ) ， 基 带 处 理 器 中 最 重要 的 
部 分 是 DSP core， 它 负责 语音 信号 的 编 解 码 及 无 线 信 号 处 理 。 

在 应 用 处 理 器 中 也 有 DSP， 它 的 工作 是 在 视频 节目 播放 时 负责 一 
部 分 视频 的 解码 及 音频 的 解码 。 

也 有 公司 将 应 用 处 理 器 和 基带 处 理 器 集成 在 一 块 心 片 ， 如 高 通 等 
公司 。 

里 然 有 了 TI、Freescale 这 种 专业 提供 DSP 心 片 的 公司 ， 不 过 大 量 
的 应 用 处 理 器 、 基 带 处 理 器 厂商 更 需要 DSP core。 


1. Ceva's DSP core 


Ceva 是 使 用 量 最 大 的 DSP core 提 供 商 ， 在 基带 处 理 嚣 中， 不 少 公 
司 都 有 使 用 它 的 DSPcore， 如 Broadcom、 Infineon、 ST-Ericsson 等 。 
Ceva 也 提供 专门 的 音 视 频 DSP。 


2。. Verisilicon's ZSP core 


Verisilicon 公 司 也 提供 DSP core， 它 的 名 字 叫 ZSP。YVerisilicon 相 比 
Ceva， 更 多 的 面向 低 端 应 用 。 


3。Xtensa core 


前 面 我 们 已 经 介绍 过 不 少 处 理 器 IP core ， 下 面 我 们 再 来 看 看 
Tensilica 公 司 的 Xtensacore。 Xtensa 是 后 起 之 秀 ， 本 来 行业 竞争 已 经 非 
常 激烈 了 ，Xtensa 还 能 在 诸多 强 者 面前 虎口 夺 食 ， 实 力 绝对 不 容 小 
和 髓 ， 它 拥有 别人 所 不 具有 的 绝活 ，Xtensa 的 绝活 就 是 它 这 个 处 理 器 是 
可 配置 的 。 别 的 公司 在 卖 内 核 时 ， 提 供 一 些 处 理 器 内 核 的 列表 ， 如 
ARM9 core、 Cortex-A core、 Cache 大 小 为 128K 的 、Cache 大 小 为 256K 
的 ...... 客户 在 其 中 选择 一 款 自己 最 适用 的 ， 对 大 一 点 、 关 系 铁 一 点 的 
客户 ，IP 设 计 公司 还 能 针对 客户 的 需求 做 一 定 程度 的 定制 。 而 Xtensa 
内 核 ， 则 是 提供 了 一 套 工 具 ， 让 用 户 自己 在 Xtensa 最 基本 的 处 理 器 框 
架 上 ， 设 计 出 自己 想 要 的 处 理 器 ， 如 Cache 大 小 、 几 级 Cache、 寄 存 器 
的 数目 、 总 线 宽度 、 定 义 一 些 新 的 指令 集 等 ， 一 下 子 把 处 理 器 设计 变 
得 更 简单 。 

1997 年 ，Chris Rowen (现任 CTO) 创建 了 Tensilica 公 司 , “Ten” 指 

“Tensile”， 可 扩展 , “Silica” 指 “ 硅 ”， 二 者 合 在 一 起 ， 就 构成 了 Tensilica 
灵活 、 可 扩展 的 硅 。 
Chris Rowen 毕 业 于 哈佛 大 学 ， 获 得 物理 学 士 学 位 ， 并 于 70 年 代 末 
加 入 英特尔 。80 年 代 初 ，Rowen 又 自 斯 坦 福 大 学 获得 电气 工程 硕士 及 
博士 学 位 。 在 斯 坦 福 大 学 ，Rowen 加 入 John Hennessy 的 MIPS 团 队 ， 后 
来 又 进入 了 Synopsys 公 司 。 心 片 设计 需要 使 用 到 EDA (Electronic 
design automation) 工具 ，Synopsys 公 司 的 EDA 工 具 非 常 出 名 。Rowen 
的 工作 经 历 使 得 他 既 懂 处 理 器 ， 又 懂 设 计 工 上 只， 难怪 他 能 弄 出 可 配置 
处 理 器 。Rowen 还 写 了 《复杂 SoC 设 计 》 一 书 ， 书 中 介绍 了 Xtensa 内 核 
的 使 用 。 

一 个 完整 的 可 配置 处 理 器 工具 集 包 括 一 个 预先 定义 好 的 处 理 器 核 
和 一 个 设计 工具 环境 ， 这 个 设计 工具 环境 允许 设计 人 员 对 基本 处 理 器 
核 进 行 大 幅度 修改 以 满足 特殊 应 用 的 需求 。 典 型 的 配置 形式 包括 添 
加 、 删 除 和 更 新 存储 器 、 外 部 总 线 宽度 、 总 线 握手 协议 及 公共 的 处 理 
器 外 设 部 件 。 


Xtensa core 不 仅 可 以 配置 为 面向 数据 计算 的 DSP， 也 可 以 配置 为 
面向 控制 的 CPU ， 不 过 配置 为 DSP 更 能 发 挥 它 的 长 处 。 

在 Xtensa core 中 可 以 定义 新 的 指令 ， 如 可 以 将 乘法 和 加 法 操作 融 
合 (Fuse) 为 一 条 指令 ， 如 下 图 : 


=-@ 


已 从 全 已 作 
多 条 指令 合成 1 条 指令 


在 微 染 构 一 章 中 ， 我 们 知道 了 提高 处 理 器 计算 能 力 可 以 有 多 种 途 
径 。 例 如 : 每 条 指令 做 更 多 的 事 ， 一 条 指令 处 理 更 多 的 数据 ， 同 时 运 
行 更 多 的 指令 等 ， 而 这 些 途 径 可 以 在 Xtensa 中 自由 的 实现 。 如 下 图 所 
示 : Xtensa 内 核 可 以 将 N 个 操作 融合 为 一 条 指令 ， 可 以 让 一 条 指令 一 次 
处 理 M 个 数据 ， 可 以 同时 执行 L 个 指令 ， 那 么 新 的 结构 相对 于 最 基本 结 
构 ， 并 行 性 提高 LxMxN 倍 。 


同时 执行 L 个 指令 


同日 | 操 作 M 个 数据 


SIMD 


Fused operation 


可 配置 处 理 器 的 并 行 性 
处 理 器 为 了 支持 更 广 的 应 用 ， 都 会 在 硬件 结构 上 寻找 一 定 的 平 
衡 ， 于 是 经 常 出 现 这 样 的 结果 : 几 种 处 理 器 都 可 以 完成 这 项 任务 ， 但 
是 都 不 是 非常 的 适合 ， 不 合适 的 硬件 结构 导致 了 功 耗 较 高 ， 而 可 配置 
处 理 器 能 根据 具体 的 应 用 设计 处 理 器 ， 自 然 能 力 强 ， 功 耗 低 。 
Tensilica 公 司 除 了 让 客户 配置 处 理 器 外 ， 自 己 也 基于 Xtensa 内 核 配 置 了 
音频 DSP、 视 频 DSP、 基 带 DSP 供 客户 使 用 。 


7.2.4 Video Engine IP 


很 多 地 方 要 靠 驴 来 拉 货 ， 可 是 如 果 货 物 太 多 ， 驴 就 不 堪 重 负 了 ， 
很 多 业务 需要 大 量 的 计算 量 ， 处 理 器 也 会 不 堪 重 负 ， 如 下 图 所 示 : 


处 理 器 超大 的 计算 压力 
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处 理 器 不 堪 重负 

解决 上 图 的 难题 有 两 条 途径 ， 一 条 是 多 增加 一 些 马 或 者 驴 ， 组 成 
一 个 多 核 的 结构 ， 分 担 运算 量 ; 另 一 条 是 增加 一 个 机 械 设备 专门 用 于 
拉 车 ， 这 就 是 硬件 加 速 器 。 

硬件 加 速 器 是 一 块 专门 干 某 种 活 的 电路 ， 它 不 能 编程 ， 只 能 通过 
配置 完成 某 几 种 功能 。 因 为 专业 ， 所 以 计算 能 力 强 ， 功 耗 很 低 ，IP 核 
的 面积 也 小 ， 这 些 都 是 多 核 处 理 器 所 不 能 比 的 。 

我 们 在 看 视频 时 ， 要 对 视频 进行 解码 ， 我 们 在 用 视频 通话 时 ， 要 
对 摄像 头 采 集 的 图 像 序列 进行 编码 ， 这 些 都 需要 大 量 的 计算 量 ， 分辨 
率 越 高 ， 所 需 的 计算 量 越 大 ， 现 在 不 管 是 mtel、AMD 的 CPU 还 是 手机 
上 的 应 用 处 理 器 ， 内 部 都 增加 了 专用 的 视频 引擎 用 于 视频 编 解码 加 
速 。 

由 于 视频 引擎 的 技术 含量 ， 相 对 于 处 理 器 来 说 要 低 一 点 ， 因 此 提 
供 这 类 耳 的 公司 很 多 ， 中 国 新 起 的 了 设计 公司 ， 很 多 也 是 靠 设计 视频 
引擎 起 家 的 。 


J 


1. ARM Mali Video Engine 


ARM 通 过 收购 Logopard， 使 自己 具备 了 提供 视频 引擎 卫 的 能 力 ， 
产品 名 字 叫 做 Mali Video Engine。 

一 套 视频 引擎 ， 通 常 能 支持 多 种 格式 的 视频 编 解 码 ， 如 H.264、 
MPEG4、VP6 等 ， 这 些 视频 编 解 码 算 法 很 大 一 部 分 内 容 是 类 似 的 ， 
MaliVideo Engine 内 部 包含 了 专用 硬件 电路 和 微 控制 器 ， 专 用 人 硬件 电路 
处 理 运 算 量 大 、 功 能 单一 的 模块 ， 微 控制 器 通过 软件 的 方式 对 硬件 模 
块 进行 控制 ， 实 现 对 多 个 标准 的 支持 。 支 持 多 标准 的 视频 引 敬 几乎 都 
采用 这 种 方式 。 


2. On2 


现在 可 以 说 Google 也 有 IP 设 计 的 业务 了 ， 因 为 它 在 2010 年 收购 了 
On2，On2 开 发 的 视频 编 解 码 标准 VP 系 列 ， 在 Adobe Flash 上 应 用 
广泛 ， 而 On2 开 始 耻 设计 业务 ， 也 是 靠 收 购 Hantro 获 得 。 


3。 其 他 Video Engine 


Imagination Technologies 公 司 也 提供 视频 引擎 JP ，PowerVR VXD 
是 它 的 解码 卫 ，PowerVR VXE 是 它 的 编码 ITP。 
Ceva、 Tensilica、 VeriSilicon 等 公司 也 都 有 视频 引擎 IP。 


7.2.5 ”其 他 IP core 
1。 图 像 处 理 IP core 


世界 上 最 大 的 相机 生产 广 家 是 谁 ? 佳能 ? 尼康 ? 不 是 ， 是 诺 基 
亚 ! 几乎 每 一 部 手机 上 就 有 一 个 摄像 头 ， 有 的 甚至 有 两 个 ， 一 个 用 于 
担 照 ; 另 一 个 用 于 视频 通话 。 要 使 相机 照 出 来 的 图 像 有 好 的 效果 ， 图 
像 处 理 功 能 必 不 可 少 。 

相机 上 的 人 脸 检 测 、 笑 脸 检测 、 自 动 对 焦 、 红 眼 消除 、 防 拌 、 图 
像 滤波 等 功能 都 可 以 通过 IP 核 的 形式 提供 。 


2。 视频 处 理 IP core 


与 图 像 处 理 类 似 ， 视 频 也 有 一 些 处 理 来 提高 画 质 ， 如 : 降 噪 ， 去 
隔行 效 验 ， 亮 度 、 色 度 、 饱 和 度 调整 等 ， 可 以 以 IP 形 式 提 供 。 


3。 处理 器 也 玩 开源 


以 前 一 直 是 软件 玩 开 源 ， 现 在 硬件 也 玩 开 源 。IP 设 计 ， 实 际 上 是 
用 软件 描述 的 ，Sun 就 曾经 公布 了 UltraSPARC 处理 器 的 源 代 码 。 
OpenRISC 是 一 个 网 上 开源 的 RISC 内 核 ， 由 OpenCores 社 区 维护 。 其 他 
的 硬件 开源 项 目 也 很 多 。 


7.2.6 ”总结 


市 场 上 有 许多 终端 厂商 ， 如 苹果 、 三 星 、 诺 基 亚 、 摩 托 罗拉 等 ， 
它们 有 的 自己 设计 应 用 处 理 器 ， 有 的 采购 传统 半导体 公司 的 应 用 处 理 
器 ， 如 TI、 高 通 、 飞 思 卡 尔 等 ， 这 些 公 司 又 会 从 ARM、CEVA 等 公司 
采购 IP 核 ， 搭 建 自己 的 应 用 处 理 器 ， 如 下 图 所 示 : 


( 产 ] Imagination 


IP core、AP、 终 端 关 系 


第 8 章 “ 心 ” 路 历程 一 一 明明 日 日 
我 的 < 心 ” 


心 者 ， 国 之 大 事 ， 死 生 之 地 ， 存 亡 之 道 ， 不 可 不 察 也 。 


芯片 如 此 多 妖 ， 引 无 数 英 雄 尽 折腰 。 


导读 


郭 士 纳 在 成 为 TBM 总 裁 之 后 ， 接 受 美国 福克斯 电视 台 采 访 时 ， 曾 被 主持 人 劈 头 问 道 : 
“请 问 您 何 德 何 能 从 一 个 卖 暮 片 的 跃升 为 IBM 总 裁 ? ” 
郭 士 纳 却 一 脸 轻 松 地 回答 道 :“ 反 正 都 是 卖 chip 的 。” 


。 = 
chip 的 意思 


在 加 入 IBM 之 前 ， 郭 士 纳 的 身份 是 纳 贝斯 克 食 品 集团 (RJR Nabisco) 总 裁 ， 该 集团 以 生 
产 薯 片 和 饼干 闻名 于 世 。 苗 片 和 芯片 在 英文 单词 里 都 叫做 <chip”。 

在 汉语 辞典 中 ， 芯 的 意思 是 “物体 的 中 心 部 分 ”， 片 的 意思 是 “ 平 而 薄 的 物体 "。 将 电路 板 
上 的 chip 翻 译 成 芯片 ， 果 然 是 “ 信 、 达 、 雅 ”俱全 啊 。 


8.1 逻辑 电路 基础 一 一 计算 机 的 基本 构成 


8.1.1 ” 模拟、 数字 、 逻 辑 的 关系 一 一 细微 之 处 探 真 知 
1. 物理 信号 、 模 拟 信号 、 数 字 信号 的 转换 


人 类 只 能 感受 物理 信号 ， 人 类 能 看 到 某 个 物体 ， 是 因为 物体 发 出 
或 反射 的 光 进 入 了 人 的 眼睛 ， 人 类 能 听 到 某 种 声音 ， 是 因为 声波 进入 
了 人 的 耳 打 。 而 计算 机 只 能 处 理 电信 号 ， 而 且 是 数字 电信 号 ， 因 此 ， 


物理 信号 要 被 转换 为 数字 电信 号 ， 经 过 计算 机 处 理 后 ， 再 转换 为 物理 
信号 ， 被 人 类 感知 。 


电 世 界 和 物理 世界 的 关系 
物理 信号 ( 光 、 化 学 气味 、 震 动 等 ) 通过 传感器 可 以 变 成 电信 
， 这 时 的 电信 号 是 以 模拟 信号 的 形式 存在 的 ， 取 值 范围 连续 ， 经 过 
有 (Analog/Digital) 就 可 以 转变 为 数字 信号 。 数 字 信和 号 在 计 
算 机 中 被 处 理 后 ， 经 过 D/A 转换 器 (Digital/Analog) 转换 为 模拟 信 
号 ， 模 拟 信 号 经 过 执行 器 被 重新 转换 为 物理 信号 ， 就 可 以 被 我 们 所 感 
知 了 5 


各 种 信号 的 转换 


AD (Analog/Digital ) 转换 器 包含 采样 (Sampling) 和 量化 
(Quantization) ， 采 样 是 在 时 间 上 离散 化 ， 量 化 是 在 幅度 上 离散 化 。 
在 下 图 中 ， 曲 线 是 模拟 信号 ， 圆 点 是 数字 信和 号。 


Quantization 


Sampling 


模拟 信号 到 数字 信号 的 转换 

数字 信号 只 取 有 限 个 值 ， 如 : 0、1、2、3、4、5、6、7， 计 算 机 

中 的 数字 信号 只 能 取 0 和 1， 因 此 数字 信号 还 要 进行 二 进 制 化 ， 这 个 过 
程 叫 做 编码 ， 如 0 被 编码 为 000b，7 被 编码 为 111。 


2. 逻辑 基础 一 一 假 作 真 时 真 亦 假 


逻辑 这 个 词 用 在 推理 上 ， 表 示 当 一 定 的 条 件 成 立时 ， 某 个 命题 的 
真 与 假 。 在 逻辑 运算 中 ， 最 基本 的 3 种 运算 是 与 、 或 、 非 ， 就 像 代数 运 
算 中 的 加 、 减 、 乘 、 除 一 样 。 

与 : 如 果 A 和 B 都 为 真 ， 则 结果 为 真 。 

或 : 如 果 A 和 B 有 一 者 为 真 ， 则 结果 为 真 。 

非 : 如 果 输 入 为 真 ， 那 么 输出 就 为 假 ， 反 之 亦 然 。 

如 果 用 1 表示 逻辑 真 ，0 表 示 逻 辑 假 ， 这 3 种 运算 的 输入 、 输 出 关系 
可 以 表示 如 下 : 


B OUT 


逻辑 基本 运算 
3. 人 逻辑 与 电路 一 一 用 逻辑 来 抽象 电路 


在 我 们 的 日 常生 活 中 ， 数 字 从 0 数 到 9， 然 后 就 进位 ， 这 是 10 进 制 
的 计数 方式 ， 在 数字 电路 中 ， 我 们 只 取 0 和 1，0 代 表 低 电 平 ，1 代 表 高 
电 平 ， 如 下 图 所 示 ， 电 压 在 0 (接地 ) 到 Vi 之 间 代 表 逻 辑 0， 电 压 在 
VH 到 Vpp 之 间 代 表 逻 辑 1。Vi 到 Vy 之 间 为 禁止 区 域 ， 电 压 值 不 应 该 
在 这 个 区 域 ， 否 则 电路 出 现 率 乱 。 

数字 电 平 相对 于 模拟 电 平 具备 更 大 的 噪声 容 限 。 信 号 在 传输 时 ， 
不 可 避免 地 会 引入 较 大 的 噪声 ， 对 于 模拟 信号 ， 如 果 引 入 了 噪声 ， 很 
难 完全 将 噪声 消除 。 而 对 于 数字 信号 ， 即 使 电压 偏差 一 点 点 ， 只 要 大 
于 VH ， 就 可 以 认为 是 1， 完 全 没有 任何 的 失真 。 对 于 长 距离 传输 ， 信 
号 失真 大 ， 只 要 在 传输 中 间 进 行 信号 的 恢复 即 可 。 

数字 电路 并 不 是 和 模拟 电路 对 立 的 电路 ， 在 数字 电路 中 ， 电 压 的 
取 值 也 是 连续 的 ， 不 过 在 电路 中 认为 高 于 Vy 的 电压 就 是 1， 因 此 ， 数 
字 电 路 实际 上 是 模拟 电路 的 抽象 ， 正 是 这 种 抽象 简化 了 电路 的 分 析 。 


逻辑 高 


逻辑 低 


逻辑 1 和 0 
数字 的 1 和 0 对 应 了 人 逻辑 上 的 真 与 假 ， 因 此 这 种 电路 也 可 以 叫做 逻 
辑 电 路 ， 可 以 使 用 逻辑 代数 来 对 电路 进行 分 析 、 优 化 。 
逻辑 代数 的 基本 运算 是 与 、 或 、 非 ， 相 应 地 ， 多 辑 电 路 的 基本 单 
元 是 与 门 、 或 门 、 非 门 。 之 所 以 称 为 门 ， 因 为 电路 的 两 个 取 值 一 一 “1” 
和 “0” 就 好 比 门 的 开 与 关 一 样 。 
门 电路 ( 开 / 关 ) 


寺 喜 : “我 也 喜欢 
道 术 ， 先 生 既 然 要 
出 关 隐 居 ， 可 否 为 
虽 。 我 写 些 道理 ， 教 我 
有 所 依循 来 处 事 。 ” 
于 是 ， 老 子 写 了 
《道德 经 》 。 


开关 的 例子 
计算 机 由 软件 和 硬件 组 成 ， 硬 件 即 逻辑 电路 ， 既 包含 了 电 ， 也 包 
含 了 逻辑 ， 而 软件 只 需要 关注 逻辑 ， 它 们 的 关系 如 下 图 所 示 : 


计算 机 


计算 机 、 逻 辑 、 电 的 关系 
逻辑 电路 中 的 逻辑 可 以 有 两 种 解释 : 
(1) 取 值 为 0 和 1， 运 算 规 则 符合 逻辑 运算 法 则 。 
(2) 是 逻辑 上 的 电路 ， 和 具体 的 物理 实现 方式 没有 关系 。 
现在 的 计算 机 是 电子 计算 机 ， 未 来 可 能 还 有 光 计算 机 、 生 物 计算 
机 等 ， 在 这 些 计算 机 中 ， 计 算 机 的 逻辑 结构 与 软件 仍然 可 以 保留 ， 只 
是 硬件 的 实现 方式 不 一 样 。 


8.1.2 ”组 合 逻 辑 电 路 一 一 万 艾 高 楼 平地 起 


大 的 电路 都 是 由 小 的 电路 模块 组 成 ， 组 合 逻 辑 电 路 和 时 序 逻 辑 电 
路 是 基本 的 两 种 逻辑 电路 组 织 形式 。 组 合 逻 辑 电路 的 输出 只 和 输入 相 
天 ， 输 入 发 生变 化 ， 输 出 立即 就 发 生变 化 ， 这 就 是 组 合 逻 辑 电 路 ， 如 


下 图 : 
1 一 组 合 逻 辑 电 路 out 


组 合 逻 辑 电 路 
组 合 有 逻辑 电 路 的 典型 例子 就 是 加 法 器 ，3 十 2 二 5， 每 次 都 会 得 到 固 
定 的 结果 。 
老子 日 :“ 天 下 难事 必 作 于 易 ， 天 下 大 事 必 作 于 细 ”， 万 丈 高 楼 平 
地 起 ， 复 杂 的 系统 也 是 由 简单 的 东西 组 成 的 。 我 们 先 来 看 看 一 些 常 用 
的 基本 组 合 逻 辑 电 路 : 


1. 比较 器 


- 进 制 数 


比较 器 

比较 器 的 输入 为 A 和 B 的 二 进 制 码 ， 粗 箭头 表示 多 根 线 ， 细 线 代表 
一 根 线 ， 每 根 线 的 电 平 为 高 或 者 低 ， 代 表 了 它 是 1 还 是 9， 能 传输 1 bit 
的 数据 。 比 较 两 个 32 bit 数 据 的 大 小 ，A 和 B 各 代表 32 根 线 。 输 出 有 3 根 
线 ， 如 果 A>B， 则 第 1 根 线 呈 高 电 平 ， 其 余 两 根 线 呈 低 电 平 ， 如 果 A= 
B， 则 第 2 根 线 呈 高 电 平 ， 其 余 两 根 线 呈 低 电 平 ， 如 果 A<B， 则 第 3 根 
线 呈 高 电 平 ， 其 余 两 根 线 呈 低 电 平 。 

if、else 让、while 等 语句 需要 比较 大 小 ， 会 使 用 到 比较 器 。 


2. 加 法 器 


和 
- 制 数 进 


进位 输出 


加 法 器 

加 法 器 可 能 是 数字 电路 中 最 重要 的 模块 ， 它 是 所 有 运算 的 基础 。 
减法 、 乘 法 、 除 法 等 ， 都 可 以 由 它 引 申 而 来 。 

32 bit 的 加 法 器 ， 输 入 为 两 个 32 bit 数 据 ， 输 出 也 是 32 bit 数 据 ， 正 
如 同 8 十 8 三 16 会 产生 进位 一 样 ， 二 进 制 加 法 也 会 进位 ， 因 此 有 一 个 进 


位 输出 bit。 

我 们 在 计算 16 十 16 时 ， 会 分 别 计算 个 位 和 十 位 的 加 法 ， 再 看 看 个 
位 有 没有 进位 ， 如 果 有 进位 ， 就 办 加 到 十 位 上 ， 所 以 说 ， 多 位 的 加 
法 ， 也 是 通过 简单 的 一 位 加 法 实现 的 ， 二 进 制 也 是 如 此 ，32 bit 的 加 法 
器 ， 可 由 两 个 16 bit 的 加 法 器 组 成 ， 进 位 输入 负责 多 个 加 法 器 的 级 联 。 


3。 编码 器 


输出 3 的 二 进 制 码 


按 后 呈 高 电 平 


CAN \ 
CEN 
编码 器 


当 我 们 在 键盘 上 部 一 个 键 时， 计算 机 怎么 知道 我 们 敲 的 是 哪个 键 
呢 ? 

原来 每 个 键 都 连 到 一 个 编码 器 上 ， 在 上 图 中 ， 按 了 3 这 个 键 ， 相 应 
的 连 线 变 成 高 电 平 ， 编 码 器 就 输出 这 个 键 的 编码 。 如 果 有 16 个 按键 ， 
那么 输出 可 以 用 4 根 线 表 示 ， 按 键 0 用 0000 表 示 ， 按 键 1 用 0001 表 示 ..………. 

后 端的 计算 机 根据 编码 器 输出 的 编码 就 知道 了 我 们 按 的 是 什么 
键 ， 从 而 进行 相应 的 处 理 。 

对 于 按键 较 少 的 键盘 ， 这 种 电路 结构 足 矣 ， 对 于 按键 较 多 的 键 
盘 ， 电 路 结构 略微 复杂 ， 不 过 基本 原理 类 似 。 


4。 解 码 器 


二 进 制 码 


解码 器 

有 了 编码 器 ， 那 自然 会 有 解码 器 ， 不 然 怎 么 知道 每 个 码 代表 什么 
意思 呢 ? 

以 一 个 简单 的 数字 显示 屏 为 例 ， 这 个 显示 屏 有 7 段 线 ， 阿 拉 伯 数字 
可 以 由 这 7 上段 线 的 亮 与 暗 来 显示 ， 最 右面 两 段 线 亮 ， 其 他 不 亮 ， 显 示 了 
“1” 的 形状 ， 最 右面 两 段 线 和 最 上 面 一 段 线 亮 ， 其 他 不 亮 ， 显示 了 “7” 
的 形状 ..……... 这 7 上段 线 的 亮 与 暗 ， 是 通过 解码 器 输出 的 7 根 线 分 别 控制 
的 。 


5。 多 路 复 用 器 


多 路 复 用 器 (multiplexer) 就 是 从 多 个 输入 源 中 选 一 个 输入 传 到 
输出 端 。 下 图 是 一 个 2 bit 多 路 复 用 器 的 例子 : 


根据 S1 、S0 输 
出 A 或 者 B 或 
者 C 或 者 D 


输入 是 A、B、C、D， 以 及 选择 信号 S1、S0， 输 出 是 A、B、C、 
D 中 的 其 中 一 个 ， 至 于 要 输出 哪 一 个 ， 取 决 于 $S1 和 S0 的 值 ， 两 个 bit 有 4 
个 值 ， 正 好 对 应 A、B、C、D。 例 如 : 如 果 S1、S0 是 0、0， 输 出 就 等 
于 A， 如 果 S1、S0 是 0、1， 输 出 就 等 于 B.....…. 

多 路 复 用 器 就 类 似 于 分 支 ，S1 和 S0 的 值 就 是 条 件 。 


8.1.3 ”时 序 逻 辑 电 路 一 一 你 在 我 心中 留 下 了 记忆 
时 序 人 逻辑 电 路 的 输出 除了 和 当前 的 输入 有 关外 ， 还 和 电路 当前 的 
状态 相关 ， 也 就 是 说 ， 它 是 有 记忆 的 ， 或 者 说 组 合 逻 辑 电 路 是 无 情 电 


路 ， 时 序 逻 辑 电 路 是 有 情 电 路 。 这 也 不 是 信 口 雌 黄 ， 在 机 器 人 相关 的 
电影 中 ， 机 器 人 具备 情感 ， 融 来 产 于 机 器 人 拥有 了 对 人 类 的 记忆 2。 


] 


时 序 逻 辑 电路 

时 序 逻 辑 电 路 的 典型 例子 就 是 电梯 ， 电 梯 的 升 还 是 降 ， 并 不 仪 仅 
取决 于 当前 时 刻 的 输入 ， 它 还 取决 于 它 现 在 的 状态 。 电 梯 在 上 升 过 程 
中 ， 即 使 狂 按 最 底层 ， 电 梯 还 是 会 上 。 

一 个 时 序 电 路 包括 一 个 组 合 逻 辑 电 路 和 一 个 能 保留 状态 的 模块 ， 
这 个 模块 就 是 寄存 器 。 寄 存 器 是 由 D 触 发 器 实现 的 ， 一 个 D 触 发 器 存储 
1 bit 数 据 ，32 bit 的 寄存 器 就 是 由 32 个 D 触 发 器 再 加 上 外 围 电 路 组 成 
的 。 


D 触 发 器 示例 
D 触 发 器 只 在 每 个 时 钟 周期 的 上 升 沿 或 者 下 降 沿 触发 〈 二 选 
一 ) ， 一 个 时 钟 周 期 示例 如 下 图 : 


1 
| 周期 (cycle) 1 
OO 


主 升 入 下 降 治 
时 钟 周期 示例 

下 面 的 线 是 低 电 平 (0) ， 上 面 的 线 是 高 电 平 (1) ， 重 复 的 部 分 
被 称 为 一 个 周期 ， 从 0 跳 变 到 1 被 称 为 上 升 沿 ， 从 1 跳 变 到 0 被 称 为 下 降 
疝 。 

以 上 升 沿 触发 的 D 触 发 器 (flip-flops) 为 例 ，D 为 输入 信号 ，Q 为 
输出 信号 ，CLK 为 时 钟 ， 在 上 升 治 时 ，D 的 值 传递 给 了 Q， 其 他 时 刻 ， 
Q 值 保持 不 变 。 也 正 是 因为 这 种 保持 的 特性 ，D 和 触发 器 能 够 缓存 数据 。 


D 触 发 器 工作 方式 
实际 的 数字 电路 是 组 合 人 逻辑 电路 和 时 序 逻 辑 电 路 的 组 合 ， 如 下 图 
所 示 : 


2 2 2 


电路 是 组 合 逻 辑 电 路 和 时 序 逻 辑 电 路 的 组 合 

每 个 节拍 就 是 一 个 组 合 逻 辑 电路 ， 寄 存 器 缓存 了 每 个 节拍 的 输出 
结果 ， 在 每 一 个 时 钟 的 上 升 沿 ， 节 拍 1 的 输出 给 了 节拍 2 作为 输入 ， 节 
拍 2 的 输出 给 了 节拍 3 作为 输入 .……. 每 个 节拍 的 执行 时 间 要 小 于 时 钟 周 
期 ， 电 路 才能 正常 运行 。 汽 车 就 好 比 电信 号 ， 汽 车 在 公路 上 奔跑 ， 相 
当 于 电信 号 在 节拍 电路 中 流动 ， 汽 车 在 遇 到 红 灯 时 需要 等 待 ， 而 电信 
号 在 寄存 器 的 输入 端 ， 也 要 等 上 升 治 到 来 时 ， 才 能 传递 到 下 一 级 节 
担 。 


这 种 电路 是 个 天 然 的 流水 线 结构 ， 通 过 划分 节拍 ， 能 提高 电路 的 
工作 频率 。 例 如 ， 要 完成 log (IX|) 的 功能 ， 可 以 有 下 面 两 种 电路 : 


log() 


log (|x|) 的 电路 
上 面 的 电路 由 1 个 组 合 有 逻辑 电 路 完成 ， 下 面 的 电路 将 log (|x|) 拆 
成 了 两 个 组 合 逻 辑 电路 。 由 于 下 面 的 电路 每 个 节拍 执行 的 时 间 更 短 ， 
因此 时 钟 周 期 可 以 减少 ， 频 率 得 以 提升 。 


8.1.4” 微 电子 技术 一 一 微 乎 微 平 ， 至 于 无 形 


1 晶体管 一 一 半导体 建筑 用 砖 


在 电路 上 ， 有 两 种 重要 的 基本 元 件 : 二 极 管 和 三 极 管 。 

1904 年 ， 爱 迪生 的 助手 、 英 国 科 学 家 弗 莱 上 明 (John A. Fleming) 
发 明了 二 极 管 。 二 极 管 允 许 电 流 朝 一 个 方向 移动 ， 而 禁止 向 另 一 个 方 
向 移动 ， 就 好 像 单 程 车 票 一 样 ， 只 能 从 A 到 B， 不 能 从 B 到 A。 

1907 年 ， 美 国人 Lee DeForest 在 这 种 二 极 管 中 加 入 了 一 个 被 称 为 控 
制 栅 的 第 三 极 ， 这 就 是 三 极 管 。 它 可 以 用 来 实现 开关 电路 (用 于 数字 
电路 ) 、 放 大 电路 (用 于 模拟 电路 ) 。 

他 们 使 用 的 材料 是 真空 管 。 真 空 管 体 积 大 ， 发 热 大 ， 著 名 的 
ENIAC 计 算 机 就 是 采用 真空 管 ， 占 地 170 平 方 米 ， 差 不 多 是 四 室 两 厅 


的 面积 。 真 空 管 严重 制约 了 电子 计算 机 和 其 他 电子 设备 的 商业 化 进 
程 。 后 来 ， 人 们 找到 了 半导体 材料 ， 并 由 此 友 明 了 晶体 管 。 

物质 根据 导电 性 可 以 分 为 3 类 : 良 导 体 、 绝 缘 体 、 半 导体 。 中 文 翻 
译 一 向 都 是 “ 信 、 达 、 雅 ”俱全 ， 半 导体 这 个 词 翻译 得 很 好 ， 它 只 在 一 
个 方向 上 导电 ， 在 另 一 方向 上 截止 。 下 图 描述 了 绝缘 体 、 恨 导体 、 半 
导体 之 间 的 导电 性 差异 : 


绝缘 体 


导体 


站 导体 | 
阻塞 
绝缘 体 、 导 体 、 半 导体 的 导电 性 

半导体 材料 既 不 是 好 的 导体 (如 铜 ， 也 不 是 好 的 绝缘 体 《如 橡 
胶 ) 。 最 常见 的 半导体 材料 有 硅 和 钱 ， 它 们 本 身 不 导电 ， 不 过 在 这 些 
材料 中 掺 入 其 他 元 素 ( 硼 、 磷 等 ， 能 使 它们 在 一 个 方向 导电 ， 于 是 
硅 就 成 了 现在 半导体 最 主要 的 材料 。 铁 桂 能 磨 成 绣花 针 ， 而 木 杆 则 只 
能 磨 成 牙签 ， 材 料 不 对 ， 再 努力 也 没有 用 ， 可 见 材料 是 多 么 的 重要 
啊 。 

当然 ， 绝 缘 体 、 导 体 、 半 导体 的 分 类 也 不 是 绝对 的 ， 在 强 电 流 
下 ， 绝 缘 性 很 好 的 空气 也 能 被 击 穿 (闪电 ) 。 

1947 年 ， 贝 尔 实验 室 的 肖 克 利 (Shockley) 、 巴 丁 、 布 莱 顿 发 明 
了 晶体 管 ， 他 们 利用 半导体 材料 既 有 导电 的 性 质 (传导 ) ， 又 有 绝缘 
的 性 质 ( 阻 导 ) ， 将 它 设 计 成 传导 和 阻 导 兼 而 有 之 的 能 控制 电流 的 电 
子 元 件 ， 也 就 是 二 极 管 和 三 极 管 。 晶 体 管 (transistor) 的 名 称 也 是 来 
自 于 传导 器 (transfer) 和 电阻 器 (resistor) 的 组 合 。 


晶体 管 工业 的 发 展 ， 使 得 电子 产品 和 计算 机 开始 使 用 晶体 管 取代 
真空 管 ， 体 积 和 功 耗 大 幅 减 小 。 

晶体 管 被 誉 为 20 世 纪 最 伟大 的 发 明之 一 ，3 位 研究 人 员 因 此 获得 了 
1956 年 的 诺 贝尔 物理 学 奖 。 顺 便 提 一 下 ， 巴 丁 在 1972 年 因 超 导 理 论 又 
一 次 获得 了 诺 贝 尔 物理 学 奖 。 


2. 集成 电路 一 一 集大成 者 


1958 年 ， 德 州 仪器 (TI) 的 Jack Kilby 将 电路 的 所 有 元 件 都 集成 到 
一 块 半导体 之 上 ， 这 就 是 世界 上 第 一 块 集成 电路 ，Jack Kilby 靠 此 获 
得 了 2000 年 的 诺 贝尔 奖 。 

一 个 人 孤独 的 时 候 ， 常 常 也 是 最 容易 出 成 绩 的 时 候 ，Jack Kilby 就 
是 这 样 。Jack Kilby 在 回忆 自己 发 明 集 成 电路 的 经 历时 说 : 

“作为 一 名 新 员工 ， 我 没有 假期 ， 因 此 独自 留 下 来 ..…....”( 引 自 TI 
网 站 ) 

TI7 月 份 会 给 员工 放假 ， 但 是 Jack Kilby 是 新 员工 ， 没 有 假期 。 就 
这 样 ，Jack Kilby 在 同事 们 都 在 度假 时 ， 一 个 人 在 车 间 完 成 了 集成 电路 
的 发 明 。 看 来 ， 让 新 员工 多 做 些 活 ， 尤 其 是 不 要 给 他 们 放假 ， 是 非常 
有 好 处 的 (^ 人 ^) 。 

几 个 月 之 后 ， 仙 童 半导体 的 Robert Noyce (Intel 创 始 人 ) 也 独自 发 
明了 集成 电路 。Kilby 的 集成 电路 ， 元 器 件 做 在 集成 电路 板 上 ， 通 过 外 
部 的 导线 相连 ， 而 Noyce 的 构思 是 在 制造 晶体 管 的 同时 ， 把 连 线 也 制 
造 进去 ， 现 在 的 集成 电路 都 是 这 样 制造 的 。 


肖 克 利 | 布 莱 顿 Jack Kilby 


晶体 管 和 集成 电路 先驱 

仙 童 半导体 和 德州 仪器 都 为 此 提交 了 专利 ， 德 州 仪器 先 申 请 ， 仙 
童 半导体 后 申请 。 两 家 公司 的 专利 都 得 到 了 批准 ， 不 巧 的 是 ， 仙 童 半 
导体 的 专利 居然 先 得 到 批准 。 这 以 后 ， 两 家 公司 引发 了 一 场 马 拉 松 式 
的 诉讼 ， 它 们 都 知道 ， 这 是 个 影响 世界 的 东西 ， 谁 都 不 想 放 茎 。1969 
年 ， 由 于 Noyce 的 互联 技术 和 Kilby 的 不 同 ， 不 存在 侵权 问题 ， 法 院 判 
定 两 个 专利 都 有 效 ， 这 也 承认 了 集成 电路 是 一 项 同时 发 明 。 

晶体 管 就 是 集成 电路 的 建筑 用 砖 ， 集 成 电路 制程 工艺 的 发 展 ， 使 
得 晶体 管 越 来 越 小 ， 晶 体 管 的 集成 度 越 来 越 高 ， 晶 体 管 的 工作 速度 也 
越 来 越 快 ， 如 下 图 所 示 。 


集成 电路 工艺 进步 


心 者 ， 国 之 大 事 ， 不 可 不 察 也 


连 百 亿 晶 体 管 ， 战 必 胜 ， 攻 必 区 


8.2 态 片 设计 


几 万 亿 个 游离 的 原子 ， 以 某 种 方式 聚集 在 一 起 ， 以 复杂 和 奇妙 的 
方式 构成 了 人 ， 几 十 亿 个 晶体 管 ， 也 以 同样 复杂 奇妙 的 方式 组 织 在 一 
起 ， 构 成 了 处 理 器 。 每 个 原子 都 是 没有 生命 的 ， 可 是 它们 聚集 在 一 起 
却 能 组 成 生命 ， 每 个 晶体 管 也 只 是 个 电路 开关 ， 可 是 它们 组 成 的 处 理 
器 却 带 给 我 们 如 此 丰富 的 应 用 体验 ， 这 就 是 复杂 系统 独特 的 魅力 。 

用 几 十 亿 个 晶体 管 搭建 成 一 个 处 理 器 绝对 是 一 项 非常 复杂 的 工 
程 ， 我 们 首先 看 看 人 类 管理 复杂 事物 的 方式 对 我 们 的 设计 有 什么 启 
发 。 


8.2.1 人 类 是 怎么 管理 复杂 事物 的 


人 类 社会 就 是 一 个 很 复杂 的 系统 ， 人 们 在 解决 复杂 问题 时 ， 也 总 
结 出 了 一 些 常 用 的 方法 ， 通 常 有 四 招 : 抽象 、 分 层 、 规 整 化 、 模 块 
化 。 


人 类 管理 复杂 事物 的 四 招 


模块 化 


人 类 解决 复杂 问题 的 四 招 


1。 抽象 


抽象 和 具体 是 反义词 ， 抽 象 是 为 了 找 出 共性 ， 屏 数 不 重 要 的 细 
节 。 人 的 大 脑 处 理 能 力 有 限 ， 很 难 既 在 细节 上 有 细致 入 微 的 观察 ， 又 
在 全 局 上 有 高 屋 建 领 的 掌控 。 抽 象 使 得 人 们 能 够 忽略 内 部 细节 ， 对 整 
个 系统 有 更 深刻 的 把 握 。 “不 管 黑 独白 猫 ， 抓 住 老鼠 就 是 好 猫 。” 这 人 句 
话 就 是 一 个 抽象 ， 黑 猫 和 白 猫 的 共性 是 猫 ， 是 抓 老 女 ， 至 于 什么 颜色 
并 不 重要 。 

数字 电路 就 是 模拟 电路 的 抽象 。 电 路 都 是 模拟 的 ， 电 压 的 值 也 是 
连续 变化 的 ， 通 常 认为 是 SV 的 电压 ， 实 际 上 有 了 时 可 能 是 5.1V， 有 了 时 可 
能 是 4.9V。 数 字 电路 是 人 们 抽象 出 来 便于 设计 的 一 种 形式 ， 数 字 电 路 
设计 人 员 不 需要 关心 电压 大 于 3.3V 是 逻辑 1 还 是 大 于 1.2V 是 逻辑 1， 对 
他 们 来 说 ， 数 字 电 路 输入 输出 就 只 有 0 和 1。0 和 1 使 得 电路 元 件 间 的 关 
系 变 得 非常 简单 ， 设 计 人 员 不 再 需要 根据 每 个 元 件 的 电路 特性 写 出 电 
压 电流 输入 输出 方程 ， 数 字 电 路 的 设计 得 以 大 幅 简 化 。 


计算 机 的 逻辑 设计 也 是 一 种 抽象 ， 指 令 集 、 微 架构 、Cache 设 计 
等 ， 都 是 与 具体 实现 无 关 的 ， 不 管 是 电子 计算 机 ， 还 是 光 计 算 机 、 量 
子 计 算 机 、 生 物 计算 机 ， 都 能 够 使 用 ， 只 是 实现 的 方式 不 同 罢了 。 


| 逻辑 设计 ] 
了 


电子 计算 机 量子 计算 机 | 生物 计算 机 


计算 机 的 抽象 


2。 分 层 


不 管 是 TCP/IP 的 网 络 协议 ， 还 是 政府 的 行政 区 域 划 分 ， 还 是 公司 
的 组 织 结构 ， 都 使 用 了 分 层 的 思想 。 

分 层 使 得 每 层 各 司 其 职 ， 只 需要 关注 与 上 下 层 的 接口 ， 不 需要 关 
注 其 他 层 的 实现 细节 。 

对 于 处 理 器 设计 ， 可 以 分 为 系统 层 、 逻 辑 单元 层 、 逻 辑 门 层 、 唱 
体 管 电路 层 。 每 层 的 设计 人 员 只 需要 关注 自己 这 层 应 该 关注 的 内 容 ， 
整个 系统 的 设计 更 清晰 ， 更 有 条 理 。 


CR 


| cache | 
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处 理 器 集成 电路 设计 分 层 


系统 层 关 注 处 理 器 的 系统 划分 ， 如 处 理 器 包含 几 个 CPU 核 、Cache 
层次 与 容量 、 哪 些 1/O 口 等 。 

逻辑 单元 层 关 注 更 下 一 层 的 设计 ， 如 CPU 核 的 微 架 构 、Cache 的 内 
部 结构 、Cache 一 致 性 等 。 

逻辑 门 层 关 注 逻 辑 电 路 设计 ， 这 一 层 不 需要 关心 CPU 微 架构 的 原 
理 ， a 

晶体 管 电路 层 将 逻辑 电路 翻译 成 晶体 管 电路 。 


3. 规整 化 


里 然 有 的 人 身高 1.7 米 ， 有 的 人 身高 1.68 米 ， 有 的 人 身高 1.72 米 ， 
但 是 绝 大 多 数 的 衣服 尺寸 都 是 按照 1.65 米 ，1.7 米 ，1.75 米 ..….…... 这 些 尺 
寸 来 做 的 ， 如 果 按 照 1.65 米 、1.66 米 、1.67 米 ..….... 这 样 做 衣服 ， 成 本 就 
太 高 了 ， 这 就 是 规整 化 ， 规 整 化 有 利于 批量 复制 。 

处 理 器 IP 公 司 在 给 客户 提供 处 理 器 IP 时 ， 也 是 固定 几 种 基本 配置 
让 客户 选择 的 ， 不 可 能 完全 按照 客户 的 需求 来 设计 ， 如 Cache 大 小 设 


置 ， 卫 公司 会 提供 32K、64K 这 样 的 配置 ， 但 是 却 可 能 不 会 提供 48K 这 
样 的 配置 。 


4。 模 块 化 


PC 由 一 系列 标准 的 模块 组 成 : 主板 、 处 理 器 、 内 存 、 硬 盘 、 光 
驱 、 键 盘 、 鼠 标 等 ， 每 个 模块 非常 独立 ， 都 采用 标准 的 接口 ， 组 装 一 
台 PC 就 好 像 小 孩 玩 积木 游戏 一 样 简单 。 

同样 的 思想 也 被 应 用 在 软件 开发 、 集 成 电路 设计 中 ， 软 件 中 的 函 
数 就 是 模块 ， 集 成 电路 中 的 IP 核 就 是 模块 。 


软件 


| 有 滑 数 ] 滑 数 | 


模块 化 开发 
模块 化 使 得 我 们 在 使 用 模块 时 ， 只 要 关注 模块 的 功能 和 接口 ， 而 
不 需要 关注 它 的 实现 方式 ， 模 块 可 以 重用 ， 也 能 很 好 地 被 替换 ， 鼠 标 
坏 了 就 换 鼠 标 ， 键 盘 坏 了 就 换 键盘 ， 不 需要 更 换 其 他 的 模块 。 
模块 化 设计 时 ， 模 块 内 应 该 高 内 聚 ， 模 块 只 专注 于 做 一 件 事情 ， 
模块 间 应 该 低 耦 合 ， 模 块 与 模块 间 的 通信 应 尽量 少 。 简 而 言 之 ， 套 用 
一 句 广告 词 ， 宝 宝 越 独立 ， 妈 妈 越 放心 ， 模 块 越 独 立 ， 我 们 更 放心 。 


低 耦 人 台 


模块 化 设计 要 求 


8.2.2” 心 片 设计 流程 


处 理 器 流水 线 可 以 分 为 前 端 和 后 端 ， 忆 片 设计 也 可 以 分 为 前 端 和 
后 端 。 前 端 负 责 逻 辑 设计 ， 输 出 门 级 网 表 (netlist) ， 后 端 进行 物理 设 
计 ， 输 出 版 图 (layout) ， 下 一 步 就 是 心 片 制造 了 ， 这 个 过 程 俗称 为 流 
片 (tapeout) 。 

为 什么 叫 tapeout， 这 里 面 也 有 故事 ， 版 图 文件 很 大 ， 以 前 都 是 用 
磁带 (tape) 存储 ， 送 到 工厂 去 生产 ， 所 以 叫 tapeout， 后 来 这 个 词 一 
直 被 沿用 到 现在 。 

心 片 设计 流程 图 如 下 : 

妆 站 
系统 设计 
< 芯片 设计 
RTL 设 计 


芯片 设计 与 制造 流程 
如 果 有 面试 官 问 某 某 东 西 的 设计 流程 ， 第 一 个 步 又 回答 “系统 设 
计 ” 准 不 会 出 错 ， 这 简直 是 一 个 万 能 答案 ， 因 为 任何 设计 都 可 以 采用 从 
上 到 下 逐步 细 化 的 过 程 。 系 统 设计 完成 设计 的 建 模 与 仿真 、 模 块 划分 
等 ， 确 保 设计 思路 正确 ， 后 面 就 是 设计 的 具体 实现 过 程 。 


8.2.3 ”硬件 描述 语言 一 一 软 硬 不 分 
1. 电子 设计 自动 化 


计算 机 辅助 设计 (Computer-aided Design，CAD) 已 经 融入 到 各 
行 各 业 中 ， 制 造 一 双 鞋 、 一 辆 赛车 、 一 幅 广 告 等 ， 都 可 以 通过 计算 机 
来 设计 ， 而 计算 机 本 身 的 设计 ， 无 论 是 处 理 器 、 存 储 器 电路 ， 还 是 计 
算 机 结构 、 外 观 等 ， 也 都 是 在 计算 机 上 进行 的 ， 于 是 就 出 现 了 用 计算 
机 来 辅助 设计 计算 机 的 有 趣 现象 。 


hb f， 你 可 


用 计算 机 来 辅助 设计 计算 机 
EDA 是 电子 设计 自动 化 (Electronic Design Automation) 的 缩写 ， 
是 电路 领域 的 计算 机 辅助 设计 。 设 计 者 能 在 EDA 软 件 平台 上 完成 集成 
电路 的 全 套 设 计 ， 直 至 将 设计 交 给 工厂 流 片 。 
Cadence 和 Synopsys 公 司 提 供 心 片 设计 各 个 阶段 的 EDA 工 具 ， 早 期 


| 


Synopsys 的 前 端 工具 更 有 优势 ，Cadence 的 后 端 工具 更 有 优势 ， 现 在 它 
们 的 差距 不 大 。 


2。HDL 基 础 


设计 一 个 电路 ， 可 以 用 画 电路 图 的 方式 实现 ， 如 下 图 : 
IN 1 一 
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电路 图 
几 百 、 几 千 个 元 件 的 电路 图 可 以 手工 画 ， 可 是 一 个 心 片 能 包含 几 
亿 甚 至 几 十 亿 个 晶体 管 ， 靠 男 是 不 可 能 画 出 来 的 ， 好 在 人 们 开发 了 硬 
件 描述 语言 (Hardware Description Language，HDL) ， 使 用 编程 的 方 
式 来 开发 集成 电路 。 


业界 主要 有 两 种 硬件 描述 语言 : VHDL 和 Verilog， 其 中 Verilog 使 
用 较 多 。 硬 件 描 述 语言 主要 用 于 数字 电路 的 建 模 ， 建 模 的 层次 可 以 从 
高 到 低 ， 分 成 4 个 层级 : 


门 级 


电路 级 
硬件 描述 语言 建 模 层次 
行为 级 描述 电路 的 功能 ，RIL 级 描述 电路 的 结构 ， 门 级 描述 门 这 
一 级 电路 的 结构 ， 电 路 级 描述 晶体 管 电路 的 结构 。 
行为 级 描述 不 关心 电路 的 具体 结构 ， 只 关注 算法 ， 主 要 用 于 建 模 
和 仿真 ， 不 能 直接 综合 为 具体 电路 。 集 成 电路 的 设计 ， 主 要 采用 RTL 
级 的 建 模 。 
前 面 已 经 知道 ， 逻 辑 电路 的 基本 结构 如 下 图 |: 


时 种 


这 种 电路 可 以 理解 为 信号 在 寄存 器 间 传 输 ， 因 此 也 称 为 寄存 器 传 
输 级 (Register Transfer Level，RTL) 电路 。 这 种 电路 可 以 使 用 Verilog 
语言 来 实现 ， 综 合 出 具体 的 电路 。 


module half clk(clr,clxk,q); 

input clk,cilr; 
output [3:0]g; 
reg [3:0]q; 


always @(negedge clk or posedge clr) 
begin 
if(clr) q=0; 
else q=q+l1; 
end 


endmodule 


Verilog RTL 级 电路 示例 
8.2.4 ”逻辑 综合 


在 软件 开发 中 ，C 源 代码 需要 使 用 编译 器 编译 成 处 理 器 能 识别 的 
二 进 制 码 ， 在 集成 电路 开发 中 ，Verilog 源 代码 也 需要 被 编译 成 具体 的 
电路 ， 只 不 过 这 里 的 编译 被 称 为 综合 (synthesis) ， 如 下 图 所 示 : 

软件 开发 系统 提供 了 库 ， 硬 件 开 发 系统 同样 也 提供 了 库 ， 不 需要 
设计 人 员 什么 都 从 零 开始 设计 。 


约束 


Verilog 源 文件 


Db 
mr 


逻辑 综合 
在 软件 开发 中 ， 编 译 器 并 不 仅仅 只 做 简单 的 翻译 ， 它 会 对 软件 进 
行 优化 ， 在 硬件 开发 中 ， 综 合 器 也 是 如 此 ， 它 会 对 电路 进行 优化 。 编 
译 器 有 编译 选项 让 程序 员 在 存储 空间 和 速度 上 进行 权衡 ， 综 合 器 也 有 
设计 约束 让 设计 人 员 在 电路 面积 和 速度 上 进行 权衡 。 


在 软件 编译 中 ， 阔 数 内 联 将 阔 数 体 复 制 到 阔 数 的 调用 处 ， 增 大 了 
代码 空间 ， 减 少 了 执行 时 间 。 在 硬件 综合 时 ， 综 合 器 也 会 进行 类 似 的 
操作 。 对 于 同一 段 电 路 ， 综 合 出 的 电路 面积 小 ， 通 单 速度 慢 ， 综 合 
的 电路 面积 大 ， 通 单 速度 快 ， 如 下 图 所 示 : 


综合 的 面积 和 速度 权衡 
HDL 代 码 综合 出 来 的 文件 被 称 为 门 级 网 表 (netlist) ， 它 描述 了 电 
路 的 门 级 结构 ， 门 级 电路 以 与 门 、 非 门 等 为 基础 。 


8.2.5 ”硬件 描述 语言 与 软件 描述 语言 的 差别 
1. 指令 与 电路 
软件 描述 语言 描述 的 是 处 理 器 指令 ， 硬 件 描 述 语言 描述 的 是 硬件 


电路 。 同 样 是 z==x 十 y 这 条 语句 ， 在 软件 描述 语言 中 编译 出 来 是 指令 ， 
在 硬件 描述 语言 中 综合 出 来 是 电路 。 


X 


+ ——— 
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加 法 电路 示例 


在 软件 中 ， 如 果 修 改 x 的 值 ， 只 要 不 调用 这 条 语句 ，z 的 值 是 不 会 
被 修改 的 。 而 在 硬件 电路 中 ， 当 x 被 修改 时 ，z 也 立即 跟着 改变 ， 这 就 
是 软件 描述 语言 和 硬件 摘 述 语言 最 典型 的 区 别 。 


2. 数据 通道 和 控制 通道 


处 理 器 内 核 可 分 为 数据 通道 和 控制 通道 ， 数 据 通道 是 指令 的 计算 
部 分 (ALU 模 块 ) ， 控 制 通道 控制 指令 的 计算 ( 取 指 、 译 码 等 模 
块 ) 。 


输入 数据 一 一 输出 数据 


内 部 状态 | 控制 命令 


六 和 
= 


控制 通道 


处 理 器 的 数据 通道 和 控制 通道 

在 软件 描述 语言 中 ， 程 序 员 只 需要 关心 数据 通道 ， 即 输入 是 什 

么 、 进 行 什么 运算 、 输 出 是 什么 。 在 硬件 描述 语言 中 ， 设 计 人 员 除 了 
关心 数据 通道 ， 还 要 关心 控制 通道 ， 也 即 控制 指令 的 执行 。 


3。 串 行 与 并 行 
同样 是 两 条 语句 : 


假设 处 理 器 中 只 有 一 个 加 法 器 ， 如 果 是 软件 描述 语言 ， 这 两 条 语 
句 依次 使 用 处 理 器 的 一 个 加 法 器 执行 ， 而 如 果 是 硬件 描述 语言 ， 则 直 
接生 成 两 个 加 法 器 ， 并 行 处 理 。 


4。 时序 


在 软件 描述 语言 中 ， 程 序 员 只 需要 关心 指令 的 先后 顺序 ， 先 完成 
什么 、 后 完成 什么 ， 不 需要 关心 处 理 器 硬件 电路 的 执行 细节 ， 而 在 硬 
件 描述 语言 中 ， 设 计 人 员 需 要 知道 电路 在 每 个 时 钟 的 执行 状态 。 


8.2.6 ”物理 设计 


物理 设计 也 即 后 端 设计 ， 它 将 前 端 设计 产生 的 门 级 网 表 通 过 EDA 
工具 进行 布局 布线 和 物理 验证 ， 并 最 终 产 生 供 制造 用 的 GDS 1| 数据 文 
件 。 网 表 (netlist) 描述 了 集成 电路 的 逻辑 结构 ，GDS 1 文件 描述 了 
集成 电路 的 物理 结构 。 

物理 设计 可 以 分 成 3 个 大 的 步骤 : Floorplanning ( 布 图 规划 ) 、 
Placement (布局 ) 、Routing (布线 ) ， 其 中 Floorplanning 和 Placement 
通常 没有 太 严 格 的 分 开 。 

设计 房子 ， 首 先 划 定 一 个 长 方形 面积 ， 然 后 规划 房子 的 布局 ， 哪 
里 是 卧室 、 哪 里 是 厨房 、 哪 里 是 车 库 等 ， 而 且 各 个 房间 的 摆 放 位 置 是 
可 以 变化 的 ， 在 总 面积 不 变 的 条 件 下 ， 会 有 多 种 布局 方式 。 

Floorplan 字 面 意思 是 建筑 设计 的 平面 图 ， 也 就 是 从 上 面 乌 晤 到 的 
建筑 结构 图 。 

集成 电路 物理 设计 是 在 一 块 心 片上 完成 电路 的 布局 ， 它 和 房子 布 
局 一 样 ，Floorplanning 计 算出 最 佳 的 布局 方式 ， 它 和 Placement 一 起 完 
成 电路 模块 的 布局 ，Routing 就 是 布线 ， 好 比 布置 建筑 物 中 的 电线 、 网 
线 等 。 
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建筑 结构 图 示例 
物理 设计 的 输出 是 版 图 文件 ， 以 GDS 1| (Graphical Design 
System) 格式 存储 。 和 国家 的 地 理 版 图 一 样 ， 半 导体 已 片 版 图 描述 了 
电路 的 拓扑 结构 和 元 件 的 特征 ， 它 是 交 给 心 片 制 造 三 作为 指导 生产 电 
路 的 图 案 。 集 成 电路 的 基本 元 件 和 连 线 都 是 在 硅 片 上 一 层 一 层 的 蚀刻 
出 来 ， 版 图 摘 述 了 电路 结构 ， 也 就 描述 了 哪些 地 方 该 腐蚀 ， 哪 些 地 方 
该 保留 。 


版 图 一 一 乱 花 渐 欲 迷人 眼 


瓜 阔 成 金 


8.3 ”芯片 制造 
8.3.1 ”探索 微观 世界 


看 到 制造 ， 人 们 就 会 想起 苹果 和 富士 康 ， 富 士 康 代 工 苹果 的 
iphone， 利 润 都 被 苹果 拿 走 了 ， 富 士 康 只 获得 非常 少 的 一 部 分 辛苦 
费 。 

通常 人 们 理解 制造 技术 含量 低 ， 价 值 低 。 不 过 ， 精 密 制 造 却 是 相 
当 有 技术 含量 的 ， 并 且 价 值 很 高 ， 美 国 、 日 本 在 这 些 方面 都 非常 有 实 
力 ， 与 其 说 中 国 是 个 制造 大 国 ， 还 不 如 说 中 国 是 个 加 工大 国 。 

心 片 制造 的 工艺 相当 精密 ， 已 经 和 分 子 相 差 不 远 ， 相 当 有 技术 含 
量 ， 而 且 投 资 巨大 ， 烧 得 起 钱 玩 这 个 的 公司 并 不 多 。 不 少 传统 半导体 
公司 也 都 逐步 地 转向 轻 晶 圆 策略 ， 寻 求 和 代 工 三 合作 ， 自 己 只 设计 心 
片 ， 心 片 制造 外 包 给 代 工 三 ， 世 界 上 最 大 的 忆 片 制造 代 工厂 是 人 台 积 


台湾 积 体 电路 制造 股份 有 限 公司 ， 人 台湾 将 集成 电路 称 为 积 体 电 


路 ) 。 


心 片 制造 的 工艺 到 底 有 多 么 精细 呢 ? 下 图 做 出 了 一 个 比较 : 
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微观 世界 


芯片 制造 采用 的 主要 原材料 是 硅 ， 硅 是 继 氧 之 后 地 壳 上 第 二 丰富 
的 化 学 物质 。 硅 和 和 氧 组 成 了 地 球 上 最 不 值钱 的 沙子 (Si0, ) 。 心 片 所 
使 用 的 硅 就 是 从 这 些 阔 子 中 提炼 出 来 的 ， 所 以 说 ， 半 导体 行业 真 可 请 
是 点 沙 成 金 的 行业 。 


沙子 不 仅 可 以 淘金 ， 


加 工 成 芯片 和 金子 一 样 贵 


半导体 制造 公司 ,使 用 半导体 材料 和 半导体 生产 设备 ， 将 心 片 设 
计 公 司 设计 出 来 的 电路 转换 为 已 片 ， 如 下 图 所 示 : 


re 时 


芯片 制造 
在 心 片 设计 领域 ， 美 国 占据 优势 ，Intel、IBM、TI、 高 通 、 革 
果 、 思 科 等 公司 ， 莫 不 精通 于 心 片 设 计 。 在 必 片 制造 领域 ，IPntel、 三 
星 、 人 台积电 分 别 在 处 理 器 、 存 储 器 、 代 工 领 域 处 于 领先 ，IBM 的 心 片 
制造 技术 也 比较 先进 ， 经 常 将 技术 转让 给 其 他 的 代 工 厂 。 
资源 匮乏 的 日 本 非常 注重 半导体 工业 ， 早 在 20 世 纪 70 年 代 日 本 就 
开始 大 规模 布局 半导体 领域 ,虽说 现在 日 本 的 已 片 设计 与 制造 有 所 豪 
退 ， 不 过 日 本 还 是 占据 了 全 球 37% 的 半导体 生产 设备 ， 以 及 66% 的 半 
导体 材料 供应 。 


8.3.2 ”芯片 制造 流程 


心 片 制 造成 本 非常 之 高 ， 每 一 步 都 需要 相当 精密 的 工具 ， 在 相当 
严 蔡 的 环境 下 施行 ， 下 面 是 心 片 制 造 的 基本 流程 。 

心 片 制造 过 程 可 以 被 分 为 前 端 和 后 端 ， 前 端 负责 晶 圆 (wafer) 的 
处 理 ， 包 括 晶 圆 的 加 工 (wafer fabrication) 与 测试 (wafer test) ， 后 
端 负责 心 片 的 加 工 ， 包 括 晶 圆 切割 成 晶片 (die) 、 心 片 封装 与 测试 ， 
Intel 大 连 工 厂 负 责 前 端 ，Intel 成 都 工厂 负责 后 端 ， 它 们 生产 65nm 工 艺 


的 心 片 组 。 前 端 工厂 也 叫 晶 圆 矿 (fab) ， 后 端 工厂 也 叫 封装 测试 厂 
(assembly and test) 。 


蜡 图 (Wafer ) 


集成 电路 
国 
晶 圆 加工 全 版 图 


形成 晶体 管 
形成 布线 。“ 掩 膜 


i 区 完成 唱 圆 加 工 


] 晶 圆 的 测试 与 切割 
人 上 (dic) 
封 江 
测试 


SO 出 售 的 芯片 


芯片 制造 基本 流程 
1， 唱 圆 


厨师 炒菜 ， 总 是 一 次 炒 多 人 份 的 ， 心 片 制造 也 一 样 ， 也 是 一 次 制 
造 多 块 心 片 ， 晶 圆 是 忆 片 电路 的 载体 ， 一 块 晶 圆 可 以 做 出 多 片 心 片 。 
之 所 以 称 它 为 晶 圆 ， 是 因为 它 是 一 个 硅 晶 体 ， 并 且 是 一 个 圆 盘 。 

常见 的 晶 圆 直 径 大 小 为 300mm、200mm、150mm， 现 在 也 开始 出 
现 更 大 的 晶 圆 ， 晶 圆 越 大 ， 一 块 晶 圆 上 能 做 出 的 心 片 就 越 多 。Intel 大 
连 晶 圆 广 所 使 用 的 晶 圆 为 300mm， 也 就 比 一 本 书 稍 大 一 点 ， 通 常 能 够 
生产 出 几 百 片 心 片 。 


晶 圆 大 小 
晶 圆 来 源 于 沙子 ， 沙 子 的 主要 成 分 是 二 氧化 硅 (Si0, ) ， 晶 圆 所 
使 用 的 单 晶 硅 要 求 纯度 非常 之 高 ， 通 常 要 达到 99.9999%。 通 过 复杂 的 


化 学 、 物 理 方 法 ， 得 到 可 用 于 半导体 制造 质量 的 硅 锭 (silicon 
ingot) 3 侍 生 定 经 切割 得 到 品 员 | 。 


硅 锭 切割 和 切 黄 瓜 类 比 
晶 圆 非常 溥 ， 至 少 比 黄 的 面膜 薄 多 了 ，300mm 晶 圆 的 厚度 大 概 为 
0.775mm 左 右 ， 不 同 尺寸 的 晶 圆 ， 厚 度 也 不 一 样 。 
晶 圆 三 自 身 不 生产 唱 圆 ， 大 部 分 晶 圆 材料 来 自 于 日 本 ，2011 年 3 月 
日 本 一 个 小 地 方 的 地 震 ， 就 波及 全 球 25% 的 晶 圆 供应 。 


2. 洁净 室 一 一 纵使 无 一 物 ， 还 是 有 人 尘埃 


禅宗 大 师 慧 能 兄弟 曾 写 过 一 首 名 诗 : 

“ 著 提 本 无 树 ， 明 镜 亦 非 台 ， 本 来 无 一 物 ， 何 处 惹 侍 埃 ”。 

这 句 话 如 果 用 来 形容 人 的 心境 ， 意 境 是 相当 的 高 ， 不 过 大 自然 却 
没有 这 个 觉悟。 空气 中 漂浮 着 大 量 的 悬浮 物 ， 如 灰尘 、 杂 质 等 ， 虽然 
人 们 看 不 见 ， 但 是 它们 确实 存在 着 。 所 以 我 们 可 以 用 这 样 一 句 话 来 描 
述 自己 生活 的 空间 : 

“纵使 无 一 物 ， 还 是 有 人 尘埃 ” 

在 心 片 制造 过 程 中 ， 空 气 纯度 要 求 非常 高 ， 如 果 有 粒子 附 在 心 片 
上 ， 束 有 可 能 导致 心 片 出 现 瑕 疲 ， 从 而 不 能 使 用 ， 心 片 的 制造 过 程 需 
要 在 洁净 室 (clean room) 中 进行 。 

洁净 室 最 早 来 源 于 医院 的 手术 室 ， 为 了 防止 病人 伤口 感染 ， 因 此 
对 房间 的 空气 做 了 净化 。 百 分 之 百 的 洁净 是 很 难 达 到 的 ， 美 国联 邦 标 
准 209B 将 洁净 室 分 成 6 个 等 级 ，CLASS 1、CLASS 10、CLASS 100、 
CLASS 1000、CLASS 10K 和 CLASS 100K，CLASS 10 是 指 每 立方 英尺 
内 大 于 等 于 0.5h 之 微 侍 不 超过 10 个 ， 大 于 等 于 5h 之 微 侍 数 为 0， 半 导体 
工厂 的 洁净 室 ， 比 医院 的 手术 室 还 要 干净 1000 倍 〈 引 自 Intel 宣 传 
片 ) 。 


3。 晶 圆 加工 (wafer fabrication) 


Fabrication 为 装配 、 制 造 之 意 ，Fab 是 它 的 缩写 ， 通 常 也 用 Fab 来 
代 指 晶 圆 厂 ，Fabless 表 示 没 有 晶 圆 三 的 半导体 设计 公司 ， 如 Xilinx、 
高 通 等 。 


洁净 室 
人 类 文明 是 从 “* 刻 ?开始 的 ， 在 远古 时 代 ， 文 字 被 刻 在 龟 壳 、 石 头 
上 ， 后 人 由 此 而 得 知 远古 发 生 的 事情 ， 现 在 ， 人 们 将 集成 电路 刻 在 硅 
片上 ， 只 是 这 个 刻 用 手工 是 不 可 能 完成 的 ， 用 机 械 刻 也 达 不 到 精度 要 
求 ， 只 能 用 光 刻 。 


刻 甲骨 文 与 刻 集成 电路 
集成 电路 版 图 首先 被 印 在 掩 膜 上 ， 经 过 复杂 的 光 刻 、 掺 杂 、 腐 蚀 
等 步骤 ， 在 晶 圆 上 形成 晶体 管 ， 再 形成 导线 ， 这 样 集成 
电路 就 完成 了 。 
晶 圆 上 的 集成 电路 也 是 一 层 一 层 的 ， 就 像 建筑 物 一 样 ， 如 下 图 所 


小. 


晶 圆 上 的 集成 电路 结构 示意 
由 于 晶 圆 加 工会 用 到 很 多 具有 腐蚀 性 的 化 学 材料 ， 因 此 污染 控制 
也 非常 重要 。 


4。 晶 圆 测试 (wafer testing) 


一 个 晶 圆 会 包含 很 多 个 方形 的 晶片 ， 也 叫 晶 粒 (die) ， 每 个 晶片 
包含 独立 的 集成 电路 ， 它 将 被 封装 后 成 为 独立 的 心 片 。 

唱 圆 加 工 后 ， 可 能 会 在 某 些 地 方 出 现 瑕 瘦 ， 导 致 晶 片 损坏 ， 因 此 
唱 圆 在 出 广 前 要 先 经 过 测试 ， 检 测 出 好 die 和 坏 die。 


缺陷 | 2 


31 | 32| 33.134 | 35 
36 | 37138 | 
| 
晶 圆 上 的 晶 粒 


在 上 图 的 晶 圆 上 ， 有 38 个 晶片 ， 其 中 由 于 一 些 问 题 ， 出 现 了 一 块 
缺陷 ， 有 4 块 晶片 是 无 效 的 ， 晶 片 的 成 品 率 为 34/38 王 89%。 


5。 晶 片 切 割 一 一 我 切 ， 我 切 ， 我 切切 


加 工 后 的 晶 圆 会 被 送 到 后 端的 封装 测试 三 进行 后 期 处 理 ， 后 端 将 
晶 圆 进行 切片 ， 得 到 晶片 。 


6. 封装 一 一 好 马 配 好 鞍 


硅 片 非常 小 ， 且 软 ， 也 很 容易 坏 ， 需 要 把 它 固定 、 封 好 ， 封 装 可 
以 防止 心 片 受到 物理 损坏 ， 也 能 将 忆 片 产生 的 热量 扩散 到 封装 更 大 的 
面积 上 以 便 冷却 。 

封装 的 另 一 个 作用 就 是 引出 管 脚 ， 忆 片 外 围 的 金属 IO 引 脚 非常 
小 ， 将 它 引出 到 封装 上 较 大 的 引 脚 ， 以 便于 心 片 间 的 连接 ， 这 样 就 得 
到 可 以 使 用 的 心 片 了 。 


早期 很 多 多 核 处 理 器 ， 就 是 将 多 个 处 理 器 晶片 封装 在 一 个 已 片 
内 ， 后 面 的 多 核 处 理 器 ， 基 本 上 都 是 一 个 处 理 器 晶片 包含 多 个 处 理 器 
内 核 。 如 下 图 : 


芯片 封装 


处 理 嚣 | | 处 理 器 
唱片 部 片 


7。Logo 


心 片 制作 的 最 后 一 步 是 打 logo。 


打 logo 


打 logo 绝 对 是 所 有 步骤 中 最 重要 的 一 步 ， 如 果 把 Intel 的 心 片 打上 
了 AID 的 logo， 那 Intel 要 气 死 。 这 样 说 可 不 是 空穴来风 ， 因 为 一 个 中 国 
人 就 曾经 做 过 这 样 的 事 ， 这 就 是 大 名 上 见 易 的 “ 汉 心 ”事件 。 

磨 皮 是 Photoshop 的 专业 技术 ， 用 来 光滑 人 脸 。 技 术 都 是 相通 的 ， 
磨 皮 也 能 用 在 心 片 外 观 上 。 这 个 中 国人 买 了 几 块 Freescale 的 DSP 心 


片 ， 请 人 将 忆 片 上 的 logo 磨 皮 ， 然 后 打上 自己 的 logo， 这 样 代表 “世界 
先进 水 平 ”? 的 国产 DSP 忌 片 就 诞生 了 。 


仅 修改 logo 是 远 远 不 够 的 


网 友 扣 评 


楼 主 很 强 很 油菜 ! 
robotbob 


顶 起 ， 很 直观 ， 很 具体 ， 楼 主 快 点 。 
gdxky 


LZ 这 样 的 高 人 应 该 推荐 到 高 校 做 教授 ， 那 将 是 民族 之 幸 哦 。 写 的 理论 
透彻 清晰 ， 文 字 通 俗 简练 ， 语 言 风趣 形象 ， 好 ! 
shore70 


希望 中 国 多 点 像 楼 主 这 样 的 人 才 ! 
davidchan110 


楼 主 真 强 悍 ， 讲 解 通俗 易 懂 ， 顶 一 下 ! 
汉江 之 畔 


真 的 讲 的 好 ， 让 我 这 个 处 理 器 的 门外汉 也 产生 了 兴趣 ! 


tian_mengguang 


要 是 做 总 的 软件 架构 工作 ， 你 一 定 能 成 为 大 师 级 的 。 
一 一 我 爱 生 活 


楼 主 ， 我 虽然 不 是 学 数字 信号 处 理 出 身 ， 但 是 你 的 讲解 太 伟大 了 。 我 
真 的 手 不 释 卷 啊 ! 快 点 刷新 吧 。 
一 一 中 飞人 1234 


越 牛 的 人 讲 的 东西 越 通俗 易 懂 。 
时 光 机 器 007 


写 得 真 好 ! 通俗 易 懂 ， 比 较 形象 化 。 
ksyjk 


属于 深入 学 习 的 人 才能 写 出 这 种 文字 ， 现 在 太 需 要 这 样 的 人 才 了 ,更 
希望 看 到 的 朋友 也 别 顾 着 只 叫好 ， 大 家 以 大 侠 为 榜样 ， 在 各 自 的 领域 
中 都 能 做 到 深入 浅 出 ， 与 己 与 人 都 是 一 笔 财 富 ! 


yucheng_xiao 


